MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP. Universidade Estadual do Ceará - UECE

Tamanho: px
Começar a partir da página:

Download "MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP. Universidade Estadual do Ceará - UECE"

Transcrição

1 ! MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP Universidade Estadual do Ceará - UECE Centro de Ciências Tecnológicas - CCT Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE Pró-Reitoria de Pós-Graduação ProPG Luiz Fausto de Souza Brito Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta Rio de Janeiro 2015

2 i Luiz Fausto de Souza Brito Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta Dissertação apresentada ao Programa de Mestrado Integrado Profissional em Computação Aplicada da Universidade Estadual do Ceará e do Instituto Federal de Educação, Ciência e Tecnologia do Ceará, como requisito parcial para obtenção do Grau de Mestre em Computação Aplicada. Orientador: Prof. D.Sc. Flávio Luis de Mello. Rio de Janeiro 2015

3 ii Dados Internacionais de Catalogação na Publicação Universidade Estadual do Ceará Biblioteca Central Prof. Antônio Martins Filho Brito, Luiz Fausto de Souza. Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta [recurso eletrônico] / Luiz Fausto de Souza Brito CD-ROM: il. ; 4 ¾ pol. CD-ROM contendo o arquivo no formato PDF do trabalho acadêmico com 108 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7 mm). Dissertação (mestrado profissional) Universidade Estadual do Ceará, Centro de Ciências e Tecnologia, Mestrado Profissional em Computação Aplicada, Rio de Janeiro, Área de Concentração: Computação Aplicada. Orientação: Prof. Dr. Flávio Luis de Mello. 1. Computação. 2. Sistemas de Apoio à Decisão. 3. Legenda Oculta. 4. Reconhecimento Automático de Voz. I. Título.

4 _ ' y LUIZ FAUSTO DE SOUZA BRITO SISTEMA DE DECISÃO AUTOMATICOPARA CONVERSÃO DE AUDIO EM TEXTO NA GERAÇAO DE LEGENDA OCULTA Dissertação apresentada ao Programa de Mestrado Integrado Profissional em Colnputação Aplicada da Universidade Estadual do Ceará e do Instituto Federal de Educação, Ciência e Tecnologia do Ceará, como requisito parcial para obtenção do Grau de Mestre em Computação Aplicada. Defesa em: 27/04/2015 z Flávio Luís de Mello, D.SC. (UFRJ) Presidente (Orientador) Marcos Jose' egreiros Sc. CE) Membro Interno.u /7/ l jr z._ ' A, Á/Vln//L/z' FrangsíeâÍíie/Çríque de Er/eítáfs Viana, DSQÍCEFET/RJ) Membro Externo á /TÃ/...; - Luiz Wagner Perei 'scaínho, D.Sc. (UFRJ) MÕIDbTOWEXÍCIDO

5 À memória do meu pai, meu maior mestre nessa vida. À minha mãe, fonte de serenidade. À minha esposa, meu apoio incondicional. Aos meus filhos, minha eterna alegria. Ao meu Deus, fonte da perseverança. iv

6 v AGRADECIMENTOS A Deus, verdadeira fonte de toda sabedoria. À minha esposa, por todo suporte que me dá. Aos meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educação que me deram. Aos professores Flávio Mello e Edilberto Strauss, pela paciência, compreensão e apoio. A todos que, de alguma forma, me ajudaram a chegar até aqui, o meu muito obrigado.

7 Assim também vós: se vossa língua só profere palavras ininteligíveis, como se compreenderá o que dizeis? Sereis como quem fala ao vento. (1Cor 14, 9) vi

8 vii RESUMO O presente trabalho se propõe a analisar uma solução computacional para o problema de geração de legenda oculta em programas de televisão produzidos ao vivo e que contenham fala espontânea, decidindo automaticamente a melhor transcrição de um sinal de áudio em Português do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de Reconhecimento Automático de Voz em Português do Brasil, tendo em vista a otimização da acurácia. A busca de tal solução se torna crítica pela falta de opções satisfatórias no mercado, pela necessidade de garantir a acessibilidade do conteúdo televisivo para as pessoas com deficiência auditiva e também para o cumprimento de legislação específica. A análise dos resultados obtidos demonstra que é possível desenvolver um sistema a partir de software livre e de bases de dados disponíveis publicamente que obtenha um desempenho superior à estenotipia e aos sistemas comerciais de Reconhecimento Automático de Voz em Português do Brasil atualmente disponíveis. Palavras-Chave: Computação, Sistemas de Apoio à Decisão, Legenda Oculta, Reconhecimento Automático de Voz.

9 viii ABSTRACT This study aims to analyze a computational solution to the problem of generating closed captions on live television programs containing spontaneous speech. The system may automatically decide the best transcription of an audio signal in Brazilian Portuguese to the corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech Recognition systems in order to optimize their accuracy. The search for such a solution becomes critical due to the lack of satisfactory options in the market, the need to provide television content accessibility for hearing impaired people and also the compulsory fulfillment of specific legislation. The analysis of the results that have been achieved shows that it is possible to develop a system based on free software and publicly available databases that gets a superior performance compared to stenotyping and currently available commercial Brazilian Portuguese Automatic Speech Recognition systems. Keywords: Computing, Decision Support Systems, Closed Caption, Automatic Speech Recognition.

10 ix LISTA DE TABELAS TABELA 1: PRAZOS E CARGAS HORÁRIAS MÍNIMAS PARA DISPONIBILIZAÇÃO DE CLOSED CAPTION POR FAIXA HORÁRIA... 20! TABELA 2: PRAZOS DE ADEQUAÇÃO DA INFRAESTRUTURA DAS ESTAÇÕES ANALÓGICAS PARA TRANSMISSÃO DE CLOSED CAPTION, DE ACORDO COM A POPULAÇÃO DA CIDADE ONDE A ESTAÇÃO ESTIVER LOCALIZADA... 20! TABELA 3: COMPARAÇÃO DE TEXTOS COM E SEM ALINHAMENTO... 51! TABELA 4: EXEMPLO DE TRECHO DE CLOSED CAPTION EXTRAÍDO EM DOIS FORMATOS: APENAS TEXTO E TEXTO COM MARCAÇÃO DE TEMPO DE CADA CARACTERE... 53! TABELA 5: ACURÁCIA DA ESTENOTIPIA... 54! TABELA 6: ACURÁCIA DA RELOCUÇÃO... 60! TABELA 7: ACURÁCIA DO IBM VIAVOICE... 66! TABELA 8: TAXA DE PALAVRAS FORA DO DICIONÁRIO E PERPLEXIDADE DO MODELO DE LINGUAGEM... 79! TABELA 9: IMPACTO SOBRE A ACURÁCIA DO NÚMERO DE SENONES E GAUSSIANAS DO MODELO ACÚSTICO TREINADO COM UMA ÚNICA VOZ MASCULINA... 83! TABELA 10: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS MAIS REDUZIDO, COM APENAS UMA VOZ MASCULINA... 87! TABELA 11: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS INTERMEDIÁRIO, COM VOZES MASCULINAS APENAS... 90! TABELA 12: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS MAIOR, COM VOZES MASCULINAS E FEMININAS... 94! TABELA 13: RESUMO DOS RESULTADOS DE ACURÁCIA OBTIDOS NOS TESTES... 98!

11 x LISTA DE FIGURAS FIGURA 1: RECONHECIMENTO AUTOMÁTICO DE VOZ... 24! FIGURA 2: PROCESSAMENTO DIGITAL DE SINAIS EMPREGADO NO RAV... 28! FIGURA 3: REPRESENTAÇÃO ESQUEMÁTICA DA PREPARAÇÃO DO MATERIAL DE TESTE... 49! FIGURA 4: EXTRAÇÃO DE ARQUIVO VRO DO DISCO RÍGIDO... 50! FIGURA 5: EXTRAÇÃO DE CLOSED CAPTION DE ARQUIVO VRO... 52! FIGURA 6: EXTRAÇÃO DE ÁUDIO EM FORMATO WAV A PARTIR DE ARQUIVO MPEG... 57! FIGURA 7: EXEMPLO DE MARCAÇÃO DE TEMPO DE FIM DE FRASE NO ÁUDIO DO PROGRAMA E NO TEXTO EXTRAÍDO DO CLOSED CAPTION... 58! FIGURA 8: FORMATOS DE ARQUIVOS E SOFTWARES UTILIZADOS NA RELOCUÇÃO... 59! FIGURA 9: AMBIENTE DE EXECUÇÃO DO IBM VIAVOICE... 63! FIGURA 10: EXTRAÇÃO DOS TEXTOS DA GLOBO.COM... 65! FIGURA 11: FLUXO DO SINAL DE ÁUDIO UTILIZADO NA ADAPTAÇÃO DE LOCUTOR DO IBM VIAVOICE... 66! FIGURA 12: FORMATOS DE ARQUIVOS E SOFTWARES UTILIZADOS NA AVALIAÇÃO DA LATÊNCIA DO IBM VIAVOICE... 70! FIGURA 13: TRECHO DO CORPUS DE TEXTO... 71! FIGURA 14: SEGMENTAÇÃO AUTOMÁTICA DO ÁUDIO... 72! FIGURA 15: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA BOM DIA BRASIL COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 73! FIGURA 16: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA BEM ESTAR COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 74! FIGURA 17: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA DOMINGÃO DO FAUSTÃO COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 75! FIGURA 18: FERRAMENTAS UTILIZADAS PARA CRIAÇÃO DOS DICIONÁRIOS E DOS MODELOS DE LINGUAGEM... 76! FIGURA 19: LISTA DOS SÍMBOLOS FONÉTICOS UTILIZADOS... 78! FIGURA 20: TRECHO DO DICIONÁRIO... 78! FIGURA 21: REPRESENTAÇÃO ESQUEMÁTICA DO TREINAMENTO DO MODELO ACÚSTICO INDEPENDENTE DE LOCUTOR... 81! FIGURA 22: REPRESENTAÇÃO ESQUEMÁTICA DA ADAPTAÇÃO DE LOCUTOR... 84! FIGURA 23: REPRESENTAÇÃO ESQUEMÁTICA DA DECODIFICAÇÃO... 86! FIGURA 24: VARIAÇÃO DA ACURÁCIA COM PESO DO MODELO DE LINGUAGEM, PARA O PROGRAMA BOM DIA BRASIL, UTILIZANDO O MODELO ACÚSTICO TREINADO COM CORPUS MAIOR... 86!

12 xi LISTA DE SIGLAS E ABREVIATURAS ABNT Associação Brasileira de Normas Técnicas AC-3 Audio Codec 3 CC Closed Caption CMU Carnegie Mellon University CPU Central Processing Unit DCT Discrete Cosine Transform DCT-II Type-II Discrete Cosine Transform DFT Discrete Fourier Transform FFT Fast Fourier Transform HMM Hidden Markov Model HTML HyperText Markup Language IBGE Instituto Brasileiro de Geografia e Estatística IBM International Business Machines Corporation LDA Linear Discriminant Analysis MAP Maximum a Posteriori MB Mega Bytes MFCC Mel-Frequency Cepstral Coefficients MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transform MOV QuickTime Movie MPEG Moving Picture Experts Group MPEG-2 Moving Picture Experts Group Standard 2 NHK Nippon Hōsō Kyōkai PCM Pulse-Code Modulation RAM Random-Access Memory RAV Reconhecimento Automático de Voz SD Standard Definition TV Televisão UFPA Universidade Federal do Pará VRO Video Recording Object File WAV Waveform Audio File Format WER Word Error Rate

13 xii SUMÁRIO CAPÍTULO 1! INTRODUÇÃO... 14! 1.1 -! TEMA... 14! 1.2 -! DELIMITAÇÃO... 14! 1.3 -! JUSTIFICATIVA... 14! 1.4 -! OBJETIVOS... 15! 1.5 -! METODOLOGIA... 15! 1.6 -! ORGANIZAÇÃO DA DISSERTAÇÃO... 16! CAPÍTULO 2! LEGENDA OCULTA... 17! 2.1 -! ACESSIBILIDADE... 17! 2.2 -! LEGISLAÇÃO... 19! 2.3 -! ESTENOTIPIA... 21! 2.4 -! RECONHECIMENTO AUTOMÁTICO DE VOZ... 22! CAPÍTULO 3! RECONHECIMENTO AUTOMÁTICO DE VOZ (RAV)... 24! 3.1 -! UNIDADE FONÉTICA... 25! 3.2 -! DICIONÁRIO... 26! 3.3 -! PROCESSAMENTO DIGITAL DE SINAIS... 27! 3.4 -! MODELOS ESTATÍSTICOS EMPREGADOS NOS MODELOS ACÚSTICOS... 31! 3.5 -! MODELOS ESTATÍSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM... 34! 3.6 -! DECODIFICAÇÃO... 36! CAPÍTULO 4! GERAÇÃO DE LEGENDA OCULTA COM RAV NO MUNDO... 39! 4.1 -! JAPÃO... 39! 4.2 -! PORTUGAL... 40! 4.3 -! REINO UNIDO... 40! 4.4 -! CANADÁ... 40! 4.5 -! ESLOVÊNIA... 41! 4.6 -! BRASIL... 42! CAPÍTULO 5! AVALIAÇÃO DE DESEMPENHO... 48! 5.1 -! MATERIAL DE TESTE... 48! 5.2 -! AVALIAÇÃO DA ESTENOTIPIA... 51! ! Acurácia... 53! ! Latência... 57! 5.3 -! AVALIAÇÃO DA RELOCUÇÃO... 58! ! Acurácia... 59! ! Latência... 63! 5.4 -! AVALIAÇÃO DO IBM VIAVOICE... 63! ! Adaptação do Dicionário e do Modelo de Linguagem... 64! ! Adaptação do Modelo Acústico... 65! ! Acurácia... 66! ! Latência... 69! ! Consumo de recursos computacionais... 70! 5.5 -! AVALIAÇÃO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE... 70! ! Criação do Dicionário e do Modelo de Linguagem... 71! ! Taxa de palavras fora do dicionário e perplexidade do modelo de linguagem 78! ! Treinamento do Modelo Acústico... 79! ! Adaptação do Modelo Acústico... 83! ! Acurácia... 85!

14 xiii ! Latência... 97! ! Consumo de recursos computacionais... 97! 5.6 -! ANÁLISE DOS RESULTADOS... 97! CAPÍTULO 6! CONCLUSÃO E TRABALHOS FUTUROS ! 6.1 -! CONCLUSÃO ! 6.2 -! TRABALHOS FUTUROS ! REFERÊNCIAS BIBLIOGRÁFICAS !

15 14 Capítulo 1 Introdução Tema O tema deste trabalho é o desenvolvimento de um sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta a partir de software livre e de bases de dados disponíveis publicamente Delimitação Este trabalho pretende examinar os sistemas computacionais por trás do Reconhecimento Automático de Voz (RAV) na geração de legenda oculta, ou seja, sistemas capazes de realizar um processo de decisão automática para conversão de áudio em texto na geração de closed caption, utilizando o português do Brasil. Neste trabalho não se pretende desenvolver os algoritmos de processamento digital de sinais ou os modelos estatísticos envolvidos no Reconhecimento Automático de Voz. Pretende-se, ao contrário, avaliar soluções de RAV disponíveis, os recursos necessários ao treinamento para o Português do Brasil e as possibilidades de otimização da acurácia, levando em consideração as informações disponíveis sobre a experiência internacional no uso desse tipo de solução e as otimizações específicas para a aplicação de RAV na geração de legenda oculta já implementadas Justificativa Na análise de maturidade de tecnologias emergentes ( Hype Cycle ) da consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de reconhecimento de voz já está no patamar de produtividade, ou seja, que já se trata de uma tecnologia relativamente madura com aplicações no mercado. No entanto, não se pode considerar que essa tecnologia esteja tão madura no Português do Brasil quanto está em outras línguas, como o Inglês. Este trabalho é motivado pela falta de opções satisfatórias de sistemas comerciais atuais de Reconhecimento Automático de Voz em Português do Brasil para a aplicação na geração de legenda oculta ao vivo.

16 Objetivos O objetivo deste trabalho é treinar e avaliar uma das opções de software livre disponíveis, tendo em vista a aplicação na geração de legenda oculta para programas de televisão ao vivo com fala espontânea em Português do Brasil, com Reconhecimento Automático de Voz (RAV) e utilizando relocução (repetição das falas por um locutor específico em um ambiente acusticamente controlado). O treinamento para o Português do Brasil utilizará bases de dados disponíveis publicamente. O desempenho desse sistema será comparado ao obtido por Estenotipia e pelo IBM ViaVoice. Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos estatísticos utilizados por sistemas de RAV. Por fim, pretende-se também verificar a experiência das emissoras de televisão ao redor do mundo na utilização de sistemas de Reconhecimento Automático de Voz em seus respectivos idiomas para a aplicação em questão, com foco nas otimizações implementadas que possam ser aproveitadas para o Brasil Metodologia A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma ampla revisão bibliográfica, tanto da fundamentação necessária sobre o atual estado da arte de sistemas de Reconhecimento Automático de Voz (RAV), quanto das ferramentas e recursos disponíveis publicamente, da aplicação do Reconhecimento Automático de Voz na geração de legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realização de testes comparativos de desempenho de um sistema de RAV para o Português do Brasil a ser desenvolvido a partir de ferramentas e recursos disponíveis publicamente com o desempenho do IBM ViaVoice e da Estenotipia.

17 Organização da Dissertação O Capítulo 2 descreve o uso de Legenda Oculta na televisão, sua motivação e os sistemas utilizados para geração ao vivo: Estenotipia e Reconhecimento Automático de Voz. No Capítulo 3 é apresentada uma fundamentação teórica sobre o funcionamento de sistemas de Reconhecimento Automático de Voz. No Capítulo 4 são apresentadas algumas experiências relatadas por diversos autores ao redor do mundo sobre a implementação de sistemas de Reconhecimento Automático de Voz na geração de Legenda Oculta. O Capítulo 5 apresenta os resultados de testes comparativos de desempenho de um sistema de RAV desenvolvido a partir de ferramentas e recursos disponíveis publicamente com o desempenho do IBM ViaVoice e da Estenotipia. As conclusões e propostas de trabalhos futuros são apresentadas no Capítulo 6.

18 17 Capítulo 2 Legenda Oculta Acessibilidade De acordo com os resultados do Censo Demográfico 2010 do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2012), cerca de 5,1% da população brasileira (quase 10 milhões de pessoas) possuem deficiência auditiva. Para que essa população tenha acesso ao conteúdo dos programas de televisão, é necessário que tais programas disponham de legendas, contendo não apenas a transcrição textual do que é falado, como também descrições de músicas e efeitos sonoros que sejam necessários para a melhor compreensão do conteúdo sendo exibido. Tais legendas, porém, não devem estar visíveis para todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no receptor de TV. Isso é possível, tanto na transmissão de TV analógica (CONSUMER ELECTRONICS ASSOCIATION, 2008), quanto na transmissão de TV digital (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2011), através de um recurso denominado legenda oculta ou closed caption (CC). Outra possibilidade de prover acessibilidade do conteúdo televisivo à população com deficiência auditiva, é o uso de uma janela superposta ao vídeo com um intérprete de Libras (Língua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente à população com deficiência auditiva não alfabetizada (notese que, de acordo com os resultados do Censo Demográfico 2010 do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2012), o analfabetismo é mais prevalente na população com deficiência auditiva do que na população geral). Entretanto, se por um lado nem todos os deficientes auditivos são alfabetizados, por outro nem todos utilizam a Língua Brasileira de Sinais. Dessa forma, a Legenda Oculta e a janela com intérprete de Libras seriam complementares no provimento da acessibilidade do conteúdo televisivo à população com deficiência auditiva. Deve-se notar, entretanto, que a Legenda Oculta é muito mais utilizada que a janela com intérprete de Libras, por diversos motivos:

19 18 de acordo com a Lei nº , de 24 de abril de 2002 (BRASIL, 2002), no que se refere ao ensino público a "Língua Brasileira de Sinais - Libras não poderá substituir a modalidade escrita da língua portuguesa", o que significa que todos os deficiente auditivos, assim como todos as demais pessoas, deveriam ser alfabetizados e dessa forma teriam acesso à Legenda Oculta; a Língua Brasileira de Sinais é muito pouco conhecida na população geral, sendo a modalidade escrita da língua portuguesa essencial para a integração da população com deficiência auditiva, no que a Legenda Oculta poderia ser um estímulo e uma ferramenta adicional do processo de alfabetização; o uso da janela com intérprete de Libras na televisão é obrigatório apenas na propaganda político-partidária e eleitoral, nas campanhas institucionais e informativos de utilidade pública do governo (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006), e nas vinhetas de classificação indicativa (BRASIL. MINISTÉRIO DA JUSTIÇA., 2007); de acordo com a ABNT NBR 15290:2005 (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2005), a janela de Libras deve ocupar metade da altura e um quarto da largura da tela, no que poderia comprometer significativamente a visualização integral do vídeo; embora a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006), mencione que "o desenvolvimento e implementação da televisão digital no Brasil deverá permitir o acionamento opcional da janela com intérprete de LIBRAS", tal recurso é opcional na norma de receptores (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2008a) e na norma de codificação de dados (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2008b) do Sistema Brasileiro de TV Digital Terrestre e

20 19 a codificação de tal recurso não foi padronizada, de forma que a única alternativa atualmente disponível para utilização da janela de Libras é incluí-la no sinal de vídeo principal, tornando-a visível a todos os telespectadores e não apenas aos que desejariam ativar esse recurso. Embora a maior motivação para utilizar legendas ocultas na programação da televisão seja para garantir a acessibilidade aos telespectadores com deficiência auditiva, tal recurso também é interessante para o público geral em algumas situações específicas, a saber: em ambientes nos quais a necessidade de silêncio não permite que o som da TV seja reproduzido ou pelo menos não com volume suficiente para uma compreensão adequada (e.g. hospitais); em ambientes muito barulhentos em que não seria possível compreender o áudio da televisão, ainda que reproduzido com volume razoável (e.g. bares e restaurantes); em ambientes com sonorização musical (e.g. academia); para permitir que diferentes televisores reproduzam programas diferenciados em um mesmo ambiente para atender a um público heterogêneo; em ambiente residencial para permitir que se assista TV à noite sem incomodar os demais moradores; para aprendizagem da língua por parte de estrangeiros ou pessoas em processo de alfabetização Legislação No Brasil, a Lei nº de 2000 (BRASIL, 2000), criada para estabelecer normas de acessibilidade, já previa que os serviços de radiodifusão de sons e imagens deveriam adotar medidas técnicas com o objetivo de permitir o uso de subtitulação, para garantir o direito de acesso à informação às pessoas portadoras de deficiência auditiva. Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006) estabeleceu prazos, obrigando os radiodifusores a uma utilização progressiva de legendas ocultas nas suas programações. De acordo com o cronograma estabelecido, em 2017 a totalidade da programação diária das emissoras e retransmissoras deverá dispor de legendas ocultas, como pode ser verificado na Tabela 1:

21 20 Tabela 1: Prazos e cargas horárias mínimas para disponibilização de closed caption por faixa horária Prazo Faixa Horária Carga Horária 27/06/ :00-14:00 1 h 20:00-02:00 1 h 27/06/ :00-14:00 2 h 18:00-02:00 2 h 27/06/ :00-14:00 3 h 18:00-02:00 3 h 27/06/ :00-14:00 4 h 18:00-02:00 4 h 27/06/ :00-14:00 6 h 18:00-02:00 6 h 27/04/ :00-02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programação As estações transmissoras ou retransmissoras analógicas que não suportarem a transmissão de closed caption devem se adequar de acordo com um prazo estabelecido conforme a população da cidade onde a estação estiver localizada, como pode ser observado na Tabela 2. As estações transmissoras ou retransmissoras digitais devem suportar a transmissão de closed caption desde o princípio da operação. Tabela 2: Prazos de adequação da infraestrutura das estações analógicas para transmissão de closed caption, de acordo com a população da cidade onde a estação estiver localizada Prazo População 27/06/2008 > /06/2010 > /06/2012 > /06/2014 > /06/2016 Qualquer Além disso, a Norma Complementar 01 de 2006 do Ministério das Comunicações estabelece que a produção e veiculação de legendas ocultas deve atender os critérios e requisitos técnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas com legenda pré-gravada e deve ter no mínimo 98% de acerto com no máximo 4 segundos de atraso para programas com legenda ao vivo (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2005). Não consta na norma a metodologia a ser utilizada na aferição desses valores.

22 21 Tais exigências afetam todas as emissoras de televisão do Brasil, independente do porte. Mesmo as retransmissoras ou afiliadas das redes de televisão localizadas em cidades de pequeno e médio porte deverão veicular legendas ocultas para sua programação e comercialização, inclusive local, atendendo os requisitos técnicos especificados. O descumprimento das disposições da norma sujeita as emissoras ou retransmissoras às penalidades prescritas no Código Brasileiro de Telecomunicações. Maximizar a taxa de acerto das legendas ocultas é importante não apenas para cumprir a legislação, como também para viabilizar a compreensão das mensagens sendo veiculadas. Por vezes, apenas uma palavra errada é suficiente para modificar profundamente o significado de um texto. O maior desafio está na produção de legendas ocultas ao vivo, sobretudo quando há fala espontânea (sem que haja um texto pré-definido em roteiro). Essa situação ocorre com bastante frequência na programação televisiva: programas de entrevistas, auditório, religiosos, variedades, reality shows etc. Existem atualmente duas formas de produzir as legendas ocultas que se aplicam à transcrição da fala espontânea ao vivo: Estenotipia e Reconhecimento Automático de Voz. Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser utilizado como legenda oculta. Para a parte da programação que não é produzida ao vivo, a legenda oculta pode ser inserida por digitadores durante o processo de pós-produção Estenotipia No caso da estenotipia, um profissional especializado digita as palavras na velocidade em que as ouve, utilizando símbolos fonéticos em um equipamento com teclado especial (estenótipo), conectado a um computador, que utilizando um dicionário específico converte as sequências de símbolos em palavras. Um curso de formação profissional em estenotipia dura de seis meses a um ano, mas normalmente é necessário pelo menos dois anos de prática para obter a velocidade necessária para legendagem ao vivo (cerca de 180 palavras por minuto). É uma mão-de-obra relativamente cara, escassa e difícil de repor. De acordo com

23 22 matéria publicada na revista Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA, 2012), em geral concentrados nas cidades de maior porte. Erros no processo de estenotipia podem ocorrer tanto por falha humana na digitação, quanto pela ocorrência de palavras fora do dicionário Reconhecimento Automático de Voz O Reconhecimento Automático de Voz é o processo de conversão do sinal acústico da voz em uma transcrição textual correspondente. Um sistema que implemente tal processo inclui a captação do sinal de voz, sua digitalização, processamento digital de sinais e modelos estatísticos. Na aplicação de Reconhecimento Automático de Voz para a geração de closed caption, normalmente é utilizado um relocutor, que ouve a fala espontânea através de um fone de ouvido e a repete em um estúdio (AHMER, 2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011). Com o uso da relocução, o sistema pode ser adaptado à voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por não precisar considerar a variabilidade fonética entre indivíduos. Além disso, como a relocução se dá em um ambiente acusticamente controlado, proporciona uma razão sinal/ruído melhor para o sistema de reconhecimento. Outra vantagem de utilizar a relocução, é que o relocutor pode reformular a fala, corrigindo as disfluências comuns na linguagem oral, tornando-a mais adequada a uma transcrição para a linguagem escrita. Em caso de fala muito rápida (e.g. locução esportiva), o relocutor pode resumir a fala, para que a velocidade de exibição do texto seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento, o relocutor pode ainda falar ou digitar os sinais de pontuação que devem ser utilizados e acrescentar pausas entre as palavras. Para realizar a relocução, não é necessário um curso de formação profissional específico, sendo uma mão-de-obra mais barata, fácil e rápida de repor do que um estenotipista. Pela experiência profissional do autor desta dissertação, o custo operacional da relocução é aproximadamente a metade do custo da estenotipia.

24 23 Erros no processo de reconhecimento de voz podem ser atribuídos a problemas com a qualidade da captação e digitalização do sinal de voz, ao ruído ambiente, às limitações dos algoritmos de processamento de sinais e modelos estatísticos empregados, à limitação e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como às diferenças entre a base de dados utilizada no treinamento e a fala a ser reconhecida (diferenças acústicas, de vocabulário, de linguagem etc.) (HUANG, ACERO e HON, 2001). Pode-se notar que a criticidade para o emprego da estenotipia está no fator humano, enquanto a criticidade para emprego do reconhecimento de voz está em um sistema computacional. Em princípio, a solução utilizando reconhecimento de voz é mais atrativa para as emissoras, por possuir um custo operacional menor.

25 24 Capítulo 3 Reconhecimento Automático de Voz (RAV) Como já foi descrito no capítulo anterior, o Reconhecimento Automático de Voz é o processo de conversão do sinal acústico da voz em uma transcrição textual correspondente. Um sistema que implemente tal processo inclui a captação do sinal de voz, sua digitalização, processamento digital de sinais e modelos estatísticos. Uma representação esquemática de um sistema de Reconhecimento Automático de Voz, em sua arquitetura mais frequente (AHMER, 2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada na Figura 1: Figura 1: Reconhecimento Automático de Voz O sinal de áudio é obtido pela captação (realizada através de um microfone) e digitalização (que consiste em um processo de amostragem no tempo e quantização da amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair parâmetros que possam ser úteis no processo de reconhecimento de padrões fonéticos. O dicionário fonético e os modelos estatísticos utilizados no reconhecimento (modelo acústico e modelo de linguagem) são específicos para cada idioma, podendo

26 25 ser otimizados para determinadas características de voz, vocabulário e linguagem. São gerados a partir de uma base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de gravações de fala em segmentos de curta duração com as transcrições textuais correspondentes (corpus de voz) (HUANG, ACERO e HON, 2001) Unidade Fonética Na implementação de um sistema de Reconhecimento Automático de Voz, deve-se escolher qual será a unidade fonética empregada, ou seja, quais serão as menores partes da fala que serão consideradas no treinamento e, consequentemente, no reconhecimento realizado pelo sistema (HUANG, ACERO e HON, 2001). A utilização de palavras como unidade fonética em um sistema de RAV apresenta grandes dificuldades para a aplicação em fala contínua com vocabulário extenso, embora possa ser empregada em aplicações de RAV para comando de voz, em que a fala não seja contínua e o vocabulário do sistema seja limitado. Na fala contínua, muitas vezes não há pausas entre as palavras, o que torna difícil a detecção dos limites de cada palavra no tempo dentro de um sinal de voz. Como o reconhecimento de voz é um tipo de reconhecimento de padrões, a utilização de um vocabulário extenso (dezenas ou até centenas de milhares de palavras) torna difícil a obtenção de exemplos de áudio com transcrição suficientes para treinar de forma confiável os modelos estatísticos de cada palavra. Além disso, com o aumento da quantidade de padrões a serem reconhecidos, aumenta a probabilidade de confusão entre eles (CINCAREK, 2008). A utilização de sílabas como unidade fonética, embora reduza a quantidade de padrões a serem reconhecidos, pode representar uma quantidade de padrões ainda relativamente alta dependendo do idioma considerado, além de também apresentar problemas para a detecção de início e fim das sílabas (AHMER, 2002). A menor unidade sonora distintiva da fala é denominada fonema. Pode-se considerar essa unidade análoga ao grafema (menor unidade distintiva da linguagem escrita, que nas línguas com escrita alfabética é um caractere). Note-se, entretanto, que não há uma relação biunívoca entre grafema e fonema (um grafema pode corresponder

27 26 a mais de um fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema é que ambos são conceitos abstratos, com uma variedade praticamente infinita de realizações concretas. No caso do grafema, essa variedade se deve às diferenças de formatação ou caligrafia; no caso do fonema, deve-se às diferenças fisiológicas (e.g. voz mais grave ou mais aguda), psicológicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, além dos efeitos coarticulatórios (o som de um fonema é afetado pelo contexto de vizinhança fonética). A realização concreta de um fonema é denominada fone (HUANG, ACERO e HON, 2001). A quantidade de fonemas existentes em qualquer idioma é bem inferior à quantidade de palavras ou sílabas existentes, sendo por isso o fonema uma unidade mais adequada ao treinamento e ao reconhecimento. A duração dos fonemas também apresenta variabilidade menor que a duração das palavras ou sílabas, o que facilita a detecção de início e fim (AHMER, 2002). As variações fonéticas devidas aos falantes podem ser mitigadas através do uso de relocução (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variações devidas aos efeitos coarticulatórios podem ser levadas em consideração diferenciando os fonemas pelo contexto de vizinhança fonética, utilizando trifones (um trifone representa um único fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilização de trifones aumenta a quantidade de padrões a serem reconhecidos, o que demanda uma base de dados maior para o treinamento do sistema. Por vezes, uma solução de compromisso é o agrupamento de informações em modelos de trifones semelhantes (CINCAREK, 2008) Dicionário Como palavras fora do dicionário não serão reconhecidas pelo sistema, é comum a necessidade de atualização frequente do dicionário, incorporando novas palavras, sobretudo nomes próprios (AHMER, 2002; HUANG, ACERO e HON, 2001). Contudo, deve-se destacar que quanto maior o vocabulário considerado pelo sistema, maior a probabilidade de confusão entre palavras. Portanto, para maximizar a acurácia do sistema, também pode ser interessante retirar do vocabulário palavras que não sejam mais utilizadas. Uma estratégia comum é extrair o vocabulário a partir da

28 27 análise das palavras mais comuns do conjunto de textos da base de dados do treinamento (BROUSSEAU, BEAUMONT, et al., 2003; MARTINS, TEIXEIRA e NETO, 2010). Dessa forma, também podem ser construídos dicionários especializados, segmentando o conjunto de textos por assunto (MEINEDO, CASEIRO, et al., 2003; MIYASAKA, 2004). A transcrição fonética das palavras do dicionário pode ser realizada de forma automática, utilizando um conjunto de regras de conversão grafema-fonema (SILVA, 2010). Eventualmente, uma mesma palavra no dicionário pode conter mais de uma transcrição fonética, o que é particularmente útil se o sistema precisar suportar variações regionais de pronúncia (HUANG, ACERO e HON, 2001) Processamento Digital de Sinais Como já mencionado, o processamento digital de sinais empregado no Reconhecimento Automático de Voz se destina a extrair do sinal de áudio correspondente à voz captada e digitalizada parâmetros que possam ser úteis no processo de reconhecimento de padrões fonéticos. Considerando a técnica de extração de parâmetros mais utilizada (MFCC Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequência Mel) (SILVA, 2010; YOUNG, EVERMANN, et al., 2009), tal processo será descrito a seguir e está ilustrado na Figura 2:

29 28 Figura 2: Processamento Digital de Sinais empregado no RAV Tipicamente, o processamento de sinais utilizado nesta aplicação é iniciado por uma filtragem com a finalidade de maximizar a razão sinal/ruído. Nesse sentido, os componentes com frequência acima do espectro da voz são filtrados e o sinal é reamostrado a 16 khz (HUANG, ACERO e HON, 2001), o que também ajuda a reduzir a quantidade de dados a serem processados. É utilizado ainda um filtro de préênfase para compensar o decaimento de energia nos componentes de frequência mais alta da fala, que são essenciais para a distinção fonética. Esse filtro também ajuda a reduzir o ruído de baixa frequência. A seguir, o sinal é segmentado no tempo, tipicamente com um segmento a cada 10 ms, tendo cada segmento a duração entre 20 e 30 ms, curto o bastante para que as características do sinal de voz possam ser consideradas uniformes dentro do segmento. Em cada um desses segmentos é aplicada uma função de janelamento,

30 29 normalmente a de Hamming, para reduzir o vazamento espectral produzido na análise desses segmentos (SEGBROECK, 2010). Das janelas resultantes, são extraídos os coeficientes MFCC, conforme os passos descritos a seguir. As janelas são processadas por uma DFT (Discrete Fourier Transform Transformada Discreta de Fourier), uma vez que as diferenças fonéticas são mais facilmente observadas no domínio da frequência do que no domínio do tempo. Para otimização de desempenho computacional, a DFT é normalmente calculada através de uma FFT (Fast Fourier Transform Transformada Rápida de Fourier). Como a fase da Transformada de Fourier não contribui para a diferenciação fonética, calcula-se o espectro de potência através do quadrado do módulo da transformada (MESEGUER, 2009). O espectro de potência calculado dessa forma possui escala de frequência linear. Entretanto, é possível verificar que a utilização de uma escala de frequência subjetivamente linear ( Mel ) é benéfica para o reconhecimento de voz. O mapeamento do espectro de potência para a escala de frequência Mel é realizado através de um banco de filtros. São utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaçados na escala Mel. Dessa forma, o banco de filtros também reduz a dimensionalidade dos dados. Como a percepção humana de intensidade sonora é logarítmica, é calculado o logaritmo da energia resultante na saída de cada filtro (CINCAREK, 2008). Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante da etapa anterior, é calculada a DCT-II (Type-II Discrete Cosine Transform Transformada Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros componentes (que concentram a maior parte da informação). A quantidade de bandas do banco de filtros e a quantidade de componentes utilizados da DCT foi determinada empiricamente para otimizar a relação performance / custo computacional (MESEGUER, 2009). A transformada do logaritmo do espectro de potência é denominada de cepstro (termo derivado da palavra espectro ). O termo MFCC se justifica porque no processo anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do logaritmo do espectro de potência na escala de frequência Mel. O

31 30 cepstro é uma representação do sinal no domínio da quefrência (termo derivado da palavra frequência ), que tem a dimensão de tempo (HUANG, ACERO e HON, 2001). Uma forma de justificar a utilização de uma transformação cepstral do sinal para a extração de parâmetros úteis na diferenciação fonética é considerando um modelo linear de produção fonética com fonte (sinal produzido pela passagem do ar através das pregas vocais) e canal (filtro acústico da cavidade oronasal, controlado pela abertura da boca e pela posição da língua, do palato mole e dos lábios). No domínio do tempo, pode-se caracterizar o canal através da sua resposta ao impulso e o sinal de fala resultante através da convolução da fonte com a resposta ao impulso do canal. No domínio da frequência a convolução é substituída pelo produto dos espectros. No domínio da quefrência a convolução é substituída pela soma dos cepstros (HUANG, ACERO e HON, 2001). Uma transformação que converta uma convolução em uma soma é denominada homomórfica. Embora a transformação empregada no cálculo dos coeficientes MFCC não seja rigorosamente homomórfica por causa da utilização do banco de filtros, ela pode ser considerada aproximadamente homomórfica para filtros com espectro suave, como é o caso do filtro acústico oronasal. Dessa forma, a MFCC favorece a separação entre fonte e canal. Isso favorece o reconhecimento porque a maior parte da diferenciação fonética se deve às características do canal. Da fonte, interessa saber apenas se as cordas vocais estão tensionadas e, portanto vibrando (como é o caso nas vogais e nas consoantes sonoras, nas quais o sinal da fonte é periódico) ou relaxadas e, portanto, não vibrando (como é o caso nas consoantes surdas, nas quais o sinal da fonte não é periódico) (HUANG, ACERO e HON, 2001). Nas línguas tonais, como o chinês, que utilizam a variação de afinação (que está relacionada à frequência de vibração das pregas vocais) como elemento de diferenciação fonética, é necessário extrair a informação da afinação, além dos coeficientes MFCC. Nas línguas não-tonais, como o português, a variação de afinação é frequentemente utilizada como elemento de diferenciação prosódica, para distinguir afirmativas de interrogativas, para indicar ironia etc. Entretanto, os sistemas de

32 31 Reconhecimento Automático de Voz normalmente não se propõe a analisar a prosódia, portanto essa informação não é extraída do áudio (HUANG, ACERO e HON, 2001). Além dos 12 coeficientes MFCC é normalmente adicionado ao vetor de parâmetros um componente que representa a energia média do sinal, aspecto também considerado importante na diferenciação fonética. A esses 13 componentes, são ainda adicionados a primeira e a segunda derivada, denominados de coeficientes dinâmicos, delta ou vetores de velocidade e aceleração, que ajudam a caracterizar os efeitos coarticulatórios, formando um vetor de parâmetros ou de características com 39 coeficientes (SEGBROECK, 2010). O vetor de parâmetros ou de características é utilizado no modelo acústico para reconhecimento dos padrões fonéticos. É possível otimizar esses parâmetros utilizando uma transformação linear que melhore a separabilidade entre os padrões a serem reconhecidos, o que produz um impacto positivo sobre a acurácia do sistema. Além disso, tal transformação descorrelaciona as dimensões do vetor de parâmetros e é possível reduzir a dimensão desse vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurácia, o que reduz o custo computacional do reconhecimento. Duas transformações conhecidas que podem ser utilizadas em conjunto para aumentar a acurácia e reduzir o custo do reconhecimento são LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform) (HUANG, ACERO e HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012) Modelos Estatísticos Empregados nos Modelos Acústicos As transcrições textuais das gravações de fala contidas na base de dados utilizada no treinamento do sistema de Reconhecimento Automático de Voz são convertidas para uma sequência de fonemas de acordo com o dicionário, para que sejam identificados nos parâmetros extraídos do sinal de áudio, pela etapa de processamento digital de sinais, padrões correspondentes aos fonemas empregados. A modelagem estatística desses padrões fonéticos é denominada Modelo Acústico. Diferentemente do dicionário, as gravações de fala utilizadas no treinamento não precisam conter todas as palavras do vocabulário do sistema, mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os contextos de

33 32 vizinhança fonética possíveis (uma vez que cada fonema pode ter suas características alteradas de acordo com o antecessor e o sucessor) (HUANG, ACERO e HON, 2001). Os modelos acústicos treinados com a voz de diferentes locutores são ditos independentes de locutor. Contudo, a acurácia é máxima quando o sistema pode ser treinado com a voz a ser reconhecida, produzindo modelos acústicos dependentes de locutor. Mas como, na prática, é difícil obter gravações suficientes para treinar adequadamente o modelo acústico, uma solução de compromisso comum é o que se denomina adaptação de locutor, em que há um treinamento independente de locutor, que é posteriormente adaptado para a voz de um locutor específico utilizando uma base de treinamento relativamente pequena. Se a base de treinamento independente de locutor for suficientemente grande e diversificada, também é possível segmentá-la, gerando modelos acústicos independentes de locutor, mas agrupados por sexo, idade, sotaque etc. A adaptação de locutor também pode ser feita a partir dos modelos acústicos desses agrupamentos (AHMER, 2002; SILVA, 2010). Dada uma sequência de vetores de parâmetros X extraída de um sinal de voz através do Processamento Digital de Sinais anteriormente descrito, a tarefa do Reconhecimento Automático de Voz é determinar a sequência correspondente de palavras W mais provável. Em termos probabilísticos, deseja-se descobrir a sequência de palavras W que maximiza a probabilidade condicional P(W X). Como essa probabilidade não é conhecida a priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional (CINCAREK, 2008; SILVA, 2010):!!! =!(!!)!(!)!(!) (1) Como a maximização de P(W X) é calculada com X fixo, isso equivale a maximizar:!(!!)!(!) (2) Isso permite a separação do problema do Reconhecimento Automático de Voz em dois problemas distintos, um modelo acústico, P(X W), que será tratado agora, e um modelo de linguagem, P(W), que será abordado adiante. O modelo acústico utiliza, tipicamente, HMM (Hidden Markov Model Modelo Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequência de estados que não são diretamente observáveis. A observação indireta, no

34 33 caso, corresponde a um vetor de características extraído do sinal de voz. Os estados poderiam ser associados aos fonemas (ou trifones), mas para maior acurácia do sistema, divide-se cada fonema (ou trifone) em três estados, denominados senones, sendo o primeiro correspondente ao início do fonema, cuja observação é influenciada pelo efeito coarticulatório da transição a partir do fonema anterior, o segundo estado corresponde à parte intermediária e mais estável do fonema e o terceiro estado corresponde à parte final do fonema, cuja observação é influenciada pelo efeito coarticulatório da transição para o próximo fonema (HUANG, ACERO e HON, 2001). Um modelo HMM é caracterizado pelas probabilidades iniciais dos estados (representadas por um vetor), pelas probabilidades de transição entre os estados (representadas por uma matriz) e pelas probabilidades de observação. As probabilidades de observação são modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade que tal mistura oferece de aproximar qualquer distribuição de probabilidade. Uma mistura de gaussianas é representada pelo vetor das médias e matriz de covariância de cada componente e por um vetor com os pesos de cada componente (SEGBROECK, 2010). Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos estados (senones) semelhantes, tais como os estados intermediários dos trifones que representam o mesmo fonema e os estados inicial e final dos trifones que representam o mesmo fonema e que podem ser agrupadas por categorias fonéticas dos fonemas anteriores e posteriores, respectivamente (YOUNG, EVERMANN, et al., 2009). Em alguns idiomas, como o japonês, em que a duração é um fator de diferenciação fonética, é necessário modelar a probabilidade de transição de estados como uma função do tempo. Nos demais idiomas, como o português, embora a duração possa servir para diferenciação prosódica, indicando ênfase ou mesmo o estado emocional do falante, como os sistemas de Reconhecimento Automático de Voz normalmente não se propõem a analisar a prosódia, essa modelagem não é utilizada (HUANG, ACERO e HON, 2001). O treinamento de um modelo acústico é o processo de estimação das probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa

35 34 estimação é o de Baum-Welch. A transcrição textual dos áudios empregados no treinamento é utilizada para gerar, baseada no dicionário, a transcrição fonética das palavras e, a partir daí, a sequência de estados correspondentes aos trifones, inserindo estados opcionais de silêncio entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em relação à sequência de vetores de características extraída do sinal de áudio e estima as probabilidades do modelo HMM (AHMER, 2002). Na adaptação de um modelo acústico para a voz de um locutor específico (adaptação de locutor), duas técnicas são empregadas com frequência: MLLR (Maximum Likelihood Linear Regression) e MAP (Maximum a Posteriori). A técnica MLLR calcula matrizes de transformação dos vetores de médias das gaussianas do modelo acústico independente de locutor de forma a maximizar a probabilidade de observação dos vetores de parâmetros extraídos do corpus de adaptação. A técnica MAP ajusta todos os parâmetros do modelo acústico, interpolando o modelo original com um novo modelo treinado a partir do corpus de adaptação. O hiperparâmetro τ (tau) é usado para controlar o peso do modelo disponível a priori. A técnica MLLR possui custo computacional mais baixo e resulta em maior acurácia caso o corpus de adaptação seja muito pequeno. A técnica MAP possui custo computacional mais alto e resulta em maior acurácia caso o corpus de adaptação seja um pouco maior. A combinação das técnicas MLLR e MAP resulta na melhor acurácia para qualquer tamanho de corpus de adaptação (HUANG, ACERO e HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012) Modelos Estatísticos Empregados nos Modelos de Linguagem O conjunto de textos da base de dados de treinamento do sistema de RAV é utilizado na modelagem da probabilidade de palavras e sequências de palavras, no que se denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a acurácia, os textos devem possuir similaridade de vocabulário e estilo de linguagem com a fala a ser reconhecida (HUANG, ACERO e HON, 2001). Para um sistema com uso previsto em situações com assuntos (e, portanto, vocabulários e estilos de linguagem) muito distintos, é comum segmentar a base de dados de textos

USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION

USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION Luiz Fausto (Rede Globo) Edilberto Strauss (UFRJ) Flávio Mello (UFRJ) Agenda Closed Caption e Acessibilidade

Leia mais

Processamento de Som com Escala de Mel para Reconhecimento de Voz

Processamento de Som com Escala de Mel para Reconhecimento de Voz PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO DEPARTAMENTO DE INFORMÁTICA Processamento de Som com Escala de Mel para Reconhecimento de Voz INF2608 FUNDAMENTOS DE COMPUTAÇÃO GRÁFICA Professor: Marcelo

Leia mais

Métodos Matemáticos e Computacionais em Música

Métodos Matemáticos e Computacionais em Música Métodos Matemáticos e Computacionais em Música Luiz Velho, Paulo Cesar Carvalho, Sergio Krakowski, Marcelo Cicconet IMPA Processamento de Sinais Sonoros Luiz Velho Som - Sinal 1 D Música e Som Musica

Leia mais

3 Os Atributos MFCC e PNCC do Sinal de Voz

3 Os Atributos MFCC e PNCC do Sinal de Voz 3 Os Atributos MFCC e PNCC do Sinal de Voz No sinal de voz incorporam-se informações importantes do falante, que são altamente perceptíveis, tais como, dialeto, contexto, estilo de falar, estado emocional,

Leia mais

Parâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução.

Parâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução. Parâmetros importantes de um Analisador de Espectros: Faixa de frequência Exatidão (frequência e amplitude) Sensibilidade Resolução Distorção Faixa dinâmica Faixa de frequência: Determina as frequências

Leia mais

PORTARIA Nº 310, DE 27 DE JUNHO DE 2006.

PORTARIA Nº 310, DE 27 DE JUNHO DE 2006. PORTARIA Nº 310, DE 27 DE JUNHO DE 2006. O MINISTRO DE ESTADO DAS COMUNICAÇÕES, no uso das atribuições que lhe confere o art. 87, parágrafo único, inciso II da Constituição, e CONSIDERANDO os comentários

Leia mais

DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA

DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA Autor 1 Autor 2 Autor 3 Abstract. O reconhecimento automático de voz tem sido o foco de muitos trabalhos

Leia mais

O áudio. O áudio. O áudio Wilson de Pádua Paula Filho 1. Propriedades físicas do som Representação digital do som Processamento digital de som

O áudio. O áudio. O áudio Wilson de Pádua Paula Filho 1. Propriedades físicas do som Representação digital do som Processamento digital de som O áudio O áudio Representação digital do som Processamento digital de som As vibrações sonoras: propagam-se como ondas de pressão atmosférica; convertidas em sinais elétricos por transdutores; transdutores

Leia mais

RECONHECIMENTO DE FALANTE

RECONHECIMENTO DE FALANTE MARCOS PAULO RIKI YANASE RECONHECIMENTO DE FALANTE Trabalho da disciplina de Processamento Digital de Sinais do curso de Engenharia Elétrica, Setor de Tecnologia da Universidade Federal do Paraná. Prof.

Leia mais

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes 3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores

Leia mais

detecção de voz cantada em sinais de áudio polifônicos

detecção de voz cantada em sinais de áudio polifônicos detecção de voz cantada em sinais de áudio polifônicos Aplicações, Abordagens e Desafios Shayenne Moura 23. April 2018 Instituto de Matemática e Estatística Universidade de São Paulo o problema Detecção

Leia mais

3 Reconhecimento de Voz Distribuído

3 Reconhecimento de Voz Distribuído 3 Reconhecimento de Voz Distribuído O conceito de reconhecimento de voz distribuído (DSR Distributed Speech Recognition) foi desenvolvido como uma forma eficiente de transladar a tecnologia de reconhecimento

Leia mais

Prof. Fabiano Taguchi

Prof. Fabiano Taguchi Prof. Fabiano Taguchi fabianotaguchi@gmail.com http://fabianotaguchi.wordpress.com (66) 9953-7642 1 Efeito audível produzido por movimentos de corpos vibratórios propagando na forma de ondas. AUDIÇÃO é

Leia mais

Tecnologias Computacionais Aplicadas À Análise De Sinais De Voz

Tecnologias Computacionais Aplicadas À Análise De Sinais De Voz Tecnologias Computacionais Aplicadas À Análise De Sinais De Voz Charles Alexandre Blumm, José Luis Gómez Cipriano Instituto de Ciências Exatas e Tecnológicas (ICET) Centro Universitário Feevale Campus

Leia mais

Apresentação... 1 Introdução... 1

Apresentação... 1 Introdução... 1 Apresentação O objetivo principal deste texto é servir como material básico para uma disciplina introdutória sobre sistemas de comunicações em um curso de Engenharia Elétrica. Ele tem abrangência limitada,

Leia mais

Teoria das Comunicações

Teoria das Comunicações 1 - Introdução Enlace de um Sistema de Comunicação fonte mensagem transdutor Transmissor Modulador canal ruído receptor transdutor destino mensagem (estimada) sinal de entrada sinal com distorção sinal

Leia mais

Comunicações Digitais

Comunicações Digitais 1 - Introdução Enlace de um Sistema de Comunicação fonte mensagem transdutor Transmissor Modulador canal ruído receptor transdutor destino mensagem (estimada) sinal de entrada sinal com distorção sinal

Leia mais

REDES DE COMPUTADORES E TELECOMUNICAÇÕES MÓDULO 4

REDES DE COMPUTADORES E TELECOMUNICAÇÕES MÓDULO 4 REDES DE COMPUTADORES E TELECOMUNICAÇÕES MÓDULO 4 Índice 1. Transmissão de Sinais Digitais...3 1.1 Modulação... 3 1.2 Banda passante... 4 1.3 Taxa de transmissão (BIT RATE)... 5 2 1. TRANSMISSÃO DE SINAIS

Leia mais

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov Plano Esta apresentação é para pessoas sem conhecimento prévio de HMMs Introdução aos Modelos Escondidos de Markov 2004 Objetivos: Ensinar alguma coisa, não tudo (Visão geral, sem muitos detalhes). Tentar

Leia mais

2 Trabalhos relacionados

2 Trabalhos relacionados 2 Trabalhos relacionados Há diversas abordagens na literatura para os problemas analisados nesta dissertação. Podemos dividir os trabalhos pesquisados inicialmente entre os que trabalham no domínio comprimido

Leia mais

UMA RESPONSABILIDADE SOCIAL DE INSERÇÃO DO INDIVIDUO COM DEFICIÊNCIA.

UMA RESPONSABILIDADE SOCIAL DE INSERÇÃO DO INDIVIDUO COM DEFICIÊNCIA. TEMA: O atendimento às regras de acessibilidade na televisão - A necessidade de adaptação dos programas das televisões brasileiras com os recursos de acessibilidade vai mais além do simples cumprimento

Leia mais

Sistemas Multimídia. O Áudio (Parte III)

Sistemas Multimídia. O Áudio (Parte III) Sistemas Multimídia O Áudio (Parte III) Sistemas Multimídia Tópico: Manipulação de Sinais de Voz Compressão Formatos Manipulação de Sinais de Áudio Descrição simplificada de uma placa de som Fonte: http://paginas.terra.com.br/lazer/py4zbz/teoria/digitaliz.htm

Leia mais

Conceitos Básicos de Áudio Digital

Conceitos Básicos de Áudio Digital Aula 07 Conceitos Básicos de Áudio Digital Diogo Pinheiro Fernandes Pedrosa Universidade Federal do Rio Grande do Norte Departamento de Ciências Exatas e Naturais Ciência da Computação Som Conceitos Iniciais

Leia mais

Universidade de Pernambuco Escola Politécnica de Pernambuco

Universidade de Pernambuco Escola Politécnica de Pernambuco Universidade de Pernambuco Escola Politécnica de Pernambuco TV Analógica e Digital Codificação de Fonte Prof. Márcio Lima E-mail:marcio.lima@poli.br 12.06.2014 Introdução A principal função de um sistema

Leia mais

SRTV/Sul Quadra 701, Bloco H, Sala 502 Edifício Record CEP: Tel./Fax: (0xx-61) Brasília DF

SRTV/Sul Quadra 701, Bloco H, Sala 502 Edifício Record CEP: Tel./Fax: (0xx-61) Brasília DF PORTARIA Nº 378, DE 22 DE JANEIRO DE 2016 O MINISTRO DE ESTADO DAS COMUNICAÇÕES, no uso das atribuições que lhe confere o art. 87, parágrafo único, inciso II, da Constituição, tendo em vista o disposto

Leia mais

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais MAC 0337 Computação Musical Jorge H. Neyra-Araoz IME USP 22/11/2007 Resumo Série de Fourier para funções periódicas

Leia mais

Luiz Fausto de Souza Brito, Flávio Luis de Mello

Luiz Fausto de Souza Brito, Flávio Luis de Mello 1 Avaliação do Desempenho de um Sistema de Reconhecimento Automático de Voz em Português do Brasil Baseado em Software Livre para Geração de Closed Caption Luiz Fausto de Souza Brito, Flávio Luis de Mello

Leia mais

A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade.

A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade. A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade. 50 8.1. Formas de representação digital do sinal de voz Há várias

Leia mais

Modems Baud rate e Bit rate

Modems Baud rate e Bit rate Na aula passada......conceituação básica de fibras ópticas SSC-0144 Redes de Alto Desempenho 2010 Vantagens & desvantagens tipos atenuação medidas de desempenho usos de fibras processo de fusão Provinha

Leia mais

Analisador de espectros por FFT

Analisador de espectros por FFT Analisador de espectros por FFT A transformada de Fourier (FT) é uma ferramenta matemática utilizada essencialmente para decompor ou separar uma função ou forma de onda em senóides de diferentes frequências

Leia mais

Analisador de Espectros

Analisador de Espectros Analisador de Espectros O analisador de espectros é um instrumento utilizado para a análise de sinais alternados no domínio da freqüência. Possui certa semelhança com um osciloscópio, uma vez que o resultado

Leia mais

Aula de Processamento de Sinais I.B De Paula. Tipos de sinal:

Aula de Processamento de Sinais I.B De Paula. Tipos de sinal: Tipos de sinal: Tipos de sinal: Determinístico:Sinais determinísticos são aqueles que podem ser perfeitamente reproduzidos caso sejam aplicadas as mesmas condições utilizadas sua geração. Periódico Transiente

Leia mais

REDES II. e Heterogêneas. Prof. Marcos Argachoy

REDES II. e Heterogêneas. Prof. Marcos Argachoy Convergentes e Heterogêneas Prof. Marcos Argachoy REDES CONVERGENTES Cont./ Convergência Refere-se a redução para uma única conexão de rede, fornecendo todos os serviços, com conseqüente economia de escala.

Leia mais

Modulação SSB e Transmissão Digital

Modulação SSB e Transmissão Digital Modulação SSB e Transmissão Digital 1 Modulação em SSB Vimos que na modulação AM, a portadora é mantida e o sinal modulante produz dois sinais laterais com a informação que estamos transmitindo. Fig. 1

Leia mais

Princípios de Telecomunicações AULA 1. Elementos de um sistema de comunicações. Prof. Eng. Alexandre Dezem Bertozzi, Esp.

Princípios de Telecomunicações AULA 1. Elementos de um sistema de comunicações. Prof. Eng. Alexandre Dezem Bertozzi, Esp. Princípios de Telecomunicações AULA 1 Elementos de um sistema de comunicações Prof. Eng. Alexandre Dezem Bertozzi, Esp. COMUNICAÇÃO TRANSMISSÃO DE INFORMAÇÃO DE UM PONTO A OUTRO, ATRAVÉS DE UMA SUCESSÃO

Leia mais

4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído

4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído 4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído Neste capítulo serão apresentadas, avaliadas e comparadas as técnicas

Leia mais

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER Revista Ciências Exatas ISSN: 1516-893 Vol. 1 Nº. Ano 015 Natanael M. Gomes Universidade de Taubaté Marcio Abud Marcelino Universidade Estadual Paulista Universidade de Taubaté Francisco José Grandinetti

Leia mais

Cepstrum. Walter Roberto Godefroid Steiger

Cepstrum. Walter Roberto Godefroid Steiger Walter Roberto Godefroid Steiger Cepstrum Trabalho apresentado como parte da avaliação da disciplina Processamento Digital de Sinais, do Departamento de Engenharia elétrica da Universidade Federal do Paraná.

Leia mais

3 Extração de Atributos

3 Extração de Atributos 3 Extração de Atributos o capítulo 2, a sequência de vetores O = {O 1, O 2,, O T } representa as informações (também chamadas de atributos) extraídas do sinal de voz. ada foi dito sobre como encontrá-las.

Leia mais

Transformada Discreta de Fourier

Transformada Discreta de Fourier Processamento Digital de Sinais Transformada Discreta de Fourier Prof. Dr. Carlos Alberto Ynoguti Jean Baptiste Joseph Fourier Nascimento: 21 de março de 1768 em Auxerre, Bourgogne, França Morte: 16 de

Leia mais

Formatos de Áudio e Vídeo Digital Introdução ao Áudio Digital

Formatos de Áudio e Vídeo Digital Introdução ao Áudio Digital Redes Multimídia 2016.2 Formatos de Áudio e Vídeo Digital Curso Superior de Tecnologia em Sistemas para Internet Turma: TEC.SIS.4T Redes Multimídia Conteúdo Programático :: 1 a Unidade 1. Aplicações multimídia

Leia mais

ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR

ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR DANIELA BARUDE FERNANDES MARÇO/2011 INSTITUTO NACIONAL DE TELECOMUNICAÇÕES INATEL MESTRADO EM TELECOMUNICAÇÕES ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR DANIELA

Leia mais

Introdução aos Sistemas de Comunicações

Introdução aos Sistemas de Comunicações aos Sistemas de Comunicações Edmar José do Nascimento () http://www.univasf.edu.br/ edmar.nascimento Universidade Federal do Vale do São Francisco Colegiado de Engenharia Elétrica Roteiro 1 Sistemas de

Leia mais

Desenvolvimento de algoritmo de análise automática da curva de frequência por meio de convoluções gaussianas do histograma de alturas 15

Desenvolvimento de algoritmo de análise automática da curva de frequência por meio de convoluções gaussianas do histograma de alturas 15 http://dx.doi.org/10.4322/978-85-99829-84-4-15 Desenvolvimento de algoritmo de análise automática da curva de frequência por meio de convoluções gaussianas do histograma de alturas 15 André Ricardo de

Leia mais

TECNOLOGIA APLICADA A MÚSICA I. Prof Evandro Manara Miletto IFRS - Campus Porto Alegre

TECNOLOGIA APLICADA A MÚSICA I. Prof Evandro Manara Miletto IFRS - Campus Porto Alegre TECNOLOGIA APLICADA A MÚSICA I Prof Evandro Manara Miletto IFRS - Campus Porto Alegre Conceitos básicos sobre o som Som? O que é o som? Como percebemos o som? Que características possui o som? Elementos

Leia mais

Computação Gráfica. Prof. MSc André Y. Kusumoto

Computação Gráfica. Prof. MSc André Y. Kusumoto Computação Gráfica Prof. MSc André Y. Kusumoto andrekusumoto.unip@gmail.com Compressão de Imagem Definição Formas de diminuir a área de armazenamento dos dados, reduzindo a quantidade de bits para representar

Leia mais

Curso Profissional Técnico de Gestão e Programação de Sistemas Informáticos Disciplina- Redes de Comunicação 2013/2014 Módulo1-Comunicação de Dados

Curso Profissional Técnico de Gestão e Programação de Sistemas Informáticos Disciplina- Redes de Comunicação 2013/2014 Módulo1-Comunicação de Dados Curso Profissional Técnico de Gestão e Programação de Sistemas Informáticos Disciplina- Redes de Comunicação 2013/2014 Módulo1-Comunicação de Dados O decibel: Definição; Historia do uso do bel e do decibel;

Leia mais

Processamento Digital de Sinais:

Processamento Digital de Sinais: Processamento Digital de Sinais: Conceitos e Aplicações Joseana Macêdo Fechine Régis de Araújo IC-DSC-UFCG 1 Por que estudar PDS? 2 PDS Conceitos Básicos Sinais Padrões de variações que representam uma

Leia mais

MECDAISY PARA LEITURA DE LIVROS DIGITAIS BENTO GONÇALVES

MECDAISY PARA LEITURA DE LIVROS DIGITAIS BENTO GONÇALVES MECDAISY PARA LEITURA DE LIVROS DIGITAIS BENTO GONÇALVES Setembro de 2015 Sumário Apresentação do Mecdaisy... 4 O que é?... 4 Objetivos... 4 Links Úteis... 5 Navegação pelos Livros... 6 Instruções Iniciais...

Leia mais

Transformada Discreta de Fourier

Transformada Discreta de Fourier Processamento Digital de Sinais Transformada Discreta de Fourier Prof. Dr. Carlos Alberto Ynoguti Jean Baptiste Joseph Fourier Nascimento: 21 de março de 1768 em Auxerre, Bourgogne, França Morte: 16 de

Leia mais

TE060 Princípios de Comunicação. Sistemas de Comunicação Digital Notes. Por quê Digital? Notes. Notes. Evelio M. G. Fernández. 5 de novembro de 2013

TE060 Princípios de Comunicação. Sistemas de Comunicação Digital Notes. Por quê Digital? Notes. Notes. Evelio M. G. Fernández. 5 de novembro de 2013 TE060 Princípios de Comunicação Modulação de Pulso 5 de novembro de 2013 Sistemas de Comunicação Digital Sistema digital no sentido de utilizar uma sequência de símbolos pertencentes a um conjunto finito

Leia mais

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Introdução a Machine Learning: Teoria, Aplicações e IA na Arquitetura Intel Vitor Hugo Ferreira, DSc - UFF Flávio Mello, DSc UFRJ e Ai2Biz

Leia mais

Osciloscópio Digital. Diagrama em blocos:

Osciloscópio Digital. Diagrama em blocos: Osciloscópio Digital Neste tipo de osciloscópio, o sinal analógico de entrada é inicialmente convertido para o domínio digital através de um conversor A/D rápido, sendo em seguida armazenado em uma memória

Leia mais

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001). Processamento Digital de Sinais Aula 3 Professor Marcio Eisencraft março 22 Aula 3 TFD: Transformada de Fourier Discreta Bibliografia OPPEHEIM, A. V.; SCHAFER, R W.; BUCK, J. R. Discrete-time signal processing,

Leia mais

MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ

MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ Acadêmico: Marcos Rodrigo da Silva Orientador: Paulo César Rodacki Gomes Sumário 2 Introdução Objetivo Fundamentação teórica Conceitos básicos Contexto atual do tema

Leia mais

Introdução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS

Introdução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS Introdução a filtros digitais Theo Pavan e Adilton Carneiro TAPS Filtro anti-aliasing Com um sinal já digitalizado não é possível distinguir entre uma frequência alias e uma frequência que realmente esteja

Leia mais

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Definição Compressão de Imagem Formas de diminuir a área de armazenamento dos dados, reduzindo a quantidade de bits

Leia mais

ARTIGO EM PUBLICAÇÃO PERIÓDICA TÉCNICA E/OU CIENTÍFICA IMPRESSA ABNT 6022:2018

ARTIGO EM PUBLICAÇÃO PERIÓDICA TÉCNICA E/OU CIENTÍFICA IMPRESSA ABNT 6022:2018 ARTIGO EM PUBLICAÇÃO PERIÓDICA TÉCNICA E/OU CIENTÍFICA IMPRESSA ABNT 6022:2018 REFERÊNCIA NORMATIVA Documentos indispensáveis para consulta e aplicação deste documento ABNT NBR 6022 - Artigo em publicação

Leia mais

TRADUÇÃO PROFISSIONAL. Artigos Científicos. Documentos Oficiais

TRADUÇÃO PROFISSIONAL. Artigos Científicos. Documentos Oficiais Artigos Científicos TRADUÇÃO Textos utilizados por laboratórios, institutos de pesquisa e outras entidades envolvidas no âmbito da ciência precisam de uma tradução clara e objetiva. Contamos com tradutores

Leia mais

Entrega Digital. Vantagens da entrega digital

Entrega Digital. Vantagens da entrega digital A TV 1OO% DIGITAL Entrega digital de materiais para exibição moderniza ainda mais as operações comerciais. A adoção do formato 16:9 Letterbox nas transmissões analógicas é mais um passo na transição do

Leia mais

7 Extração de Dados Quantitativos

7 Extração de Dados Quantitativos Capítulo 7 - Extração de Dados Quantitativos 119 7 Extração de Dados Quantitativos A técnica de medição desenvolvida e descrita nos capítulos anteriores produz como resultado a variação temporal da espessura

Leia mais

Processamento de texto escrito em Linguagem Natural para um Sistema Conversor Texto-fala. Acadêmico: Thiago M. Oechsler Orientadora: Joyce Martins

Processamento de texto escrito em Linguagem Natural para um Sistema Conversor Texto-fala. Acadêmico: Thiago M. Oechsler Orientadora: Joyce Martins Processamento de texto escrito em Linguagem Natural para um Sistema Conversor Texto-fala Acadêmico: Thiago M. Oechsler Orientadora: Joyce Martins Roteiro Introdução Objetivos do trabalho Fundamentação

Leia mais

6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1

6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1 6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1 Neste capítulo serão examinados os sistemas de reconhecimento da Fig. 3.11, com exceção do reconhecedor

Leia mais

6 Modelo Gamma-Cetuc (GC)

6 Modelo Gamma-Cetuc (GC) 6 Modelo Gamma-Cetuc (GC) Um modelo de sintetização de séries temporais de atenuação por chuva envolve a geração de dados aleatórios que satisfaçam especificações de estatísticas de primeira e de segunda

Leia mais

Curso: Análise e Desenvolvimento de Sistemas. (Introdução à Comunicação e Transmissão de Sinais)

Curso: Análise e Desenvolvimento de Sistemas. (Introdução à Comunicação e Transmissão de Sinais) Curso: Análise e Desenvolvimento de Sistemas Disciplina Processamento de Mídias e Sinais (Introdução à Comunicação e Transmissão de Sinais) Prof. Wagner Santos C. de Jesus wsantoscj@gmail.com Breve Histórico

Leia mais

Filtros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros

Filtros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros Filtros Digitais Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros Filtros são usados basicamente para dois propósitos: Separação de sinais combinados; Restauração

Leia mais

Manoel Campos da Silva Filho Mestre em Engenharia Elétrica / UnB 16 de novembro de 2011

Manoel Campos da Silva Filho Mestre em Engenharia Elétrica / UnB  16 de novembro de 2011 Sistemas Pós graduação em Telemática - Introdução à TV Digital Manoel Campos da Silva Filho Mestre em Engenharia Elétrica / UnB http://manoelcampos.com Instituto Federal de Educação, Ciência e Tecnologia

Leia mais

Processamento Digital de Imagens

Processamento Digital de Imagens Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e Digitalização de Imagens Efeitos da Digitalização Digitalização Sensoriamento

Leia mais

Processamento Digital de Imagens

Processamento Digital de Imagens 1 Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e de Imagens Sensoriamento Remoto 2 Introdução Espectro Eletromagnético

Leia mais

SUMÁRIO FUNDAMENTOS E VISÃO GERAL 19 CAPÍTULO 1 PROCESSOS ALEATÓRIOS 49

SUMÁRIO FUNDAMENTOS E VISÃO GERAL 19 CAPÍTULO 1 PROCESSOS ALEATÓRIOS 49 SUMÁRIO FUNDAMENTOS E VISÃO GERAL 19 1. O processo de comunicação 19 2. Principais recursos de comunicação 21 3. Fontes de informação 21 4. Redes de comunicação 27 5. Canais de comunicação 33 6. Processo

Leia mais

Diferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico

Diferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico Diferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico Marilda Costa, Luis M.T. Jesus, António Salgado, Moacyr Costa Filho UNIVERSIDADE DE

Leia mais

MODULAÇÃO POR CÓDIGO DE PULSO PCM

MODULAÇÃO POR CÓDIGO DE PULSO PCM Instituto Federal de Santa Catarina Curso Técnico Integrado em Telecomunicações PRT- Princípios de Telecomunicações MODULAÇÃO POR CÓDIGO DE PULSO PCM Prof. Deise Monquelate Arndt Fontes: Princípios de

Leia mais

Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva

Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva Interação humano-computador Interação humano-computador Interfaces naturais Interação humano-computador Interfaces naturais

Leia mais

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

PRINCÍPIOS DE COMUNICAÇÃO

PRINCÍPIOS DE COMUNICAÇÃO PRINCÍPIOS DE COMUNICAÇÃO MODULAÇÃO DE PULSO Evelio M. G. Fernández - 2011 Sistemas de Comunicações Digitais Sistema digital no sentido de utilizar uma seqüência de símbolos pertencentes a um conjunto

Leia mais

Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado);

Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado); Filtros Digitais Filtros Digitais Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado); São usados para dois propósitos básicos:

Leia mais

Engenharia Civil. Representação da Informação. Introdução à Computação

Engenharia Civil. Representação da Informação. Introdução à Computação Engenharia Civil Representação da Informação Introdução à Computação Sumário Retomada... Representação de informação Bit, byte Conversão numérica Exercício Referência link na página 2.2.1 O bit, o byte,

Leia mais

Closed Caption ao vivo baseado em voz. Uma nova tendência

Closed Caption ao vivo baseado em voz. Uma nova tendência Closed Caption ao vivo baseado em voz Uma nova tendência Tipos de Closed Caption Offline Online Tempo de preparação maior Mais informações Informações não literais Informação de música e fundo musical

Leia mais

Introdução ao Processamento de Imagens Digitais Aula 01

Introdução ao Processamento de Imagens Digitais Aula 01 Introdução ao Processamento de Imagens Digitais Aula 01 Douglas Farias Cordeiro Universidade Federal de Goiás 06 de julho de 2015 Mini-currículo Professor do curso Gestão da Informação Formação: Graduação

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

Informática I. Aula 2. Ementa

Informática I. Aula 2.  Ementa Informática I Aula 2 http://www.ic.uff.br/~bianca/informatica1/ Aula 2-29/08/2007 1 Ementa Noções Básicas de Computação (Hardware, Software e Internet) HTML e Páginas Web Internet e a Web Javascript e

Leia mais

Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina

Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina Márcio G. Passos e Patric L. Silva marcio_passos@yahoo.com.br e lacouth@gmail.com Silvana Luciene do N. Cunha

Leia mais

Podemos extrair áudio através de microfones, vídeos, compact disc (CD), digital vídeo disc (DVD) entre outras.

Podemos extrair áudio através de microfones, vídeos, compact disc (CD), digital vídeo disc (DVD) entre outras. Aula 08 Áudio Arquivos sonoros Em computação arquivo de som ou arquivo sonoro é um formato de arquivo que permite armazenamento de áudio digital. Em geral este arquivo armazena amostras de som em intervalos

Leia mais

API para obtenção da Frequência de um Sinal de Som por meio da FFT em Java ME

API para obtenção da Frequência de um Sinal de Som por meio da FFT em Java ME API para obtenção da Frequência de um Sinal de Som por meio da FFT em Java ME Marcelo Ruaro Departamento de Engenharias e Ciência da Computação Universidade Regional Integrada do Alto Uruguai e das Missões

Leia mais

SISTEMA DE RECONHECIMENTO DE VOZ PARA GERAÇÃO DE TEXTO PARA AUXILIAR INDIVÍDUOS COM DEFICIÊNCIA

SISTEMA DE RECONHECIMENTO DE VOZ PARA GERAÇÃO DE TEXTO PARA AUXILIAR INDIVÍDUOS COM DEFICIÊNCIA SISTEMA DE RECONHECIMENTO DE VOZ PARA GERAÇÃO DE TEXTO PARA AUXILIAR INDIVÍDUOS COM DEFICIÊNCIA Valber Antônio Gonçalves, Luciene Chagas de Oliveira Universidade de Uberaba - Uniube, Campos Uberlândia

Leia mais

FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS

FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS UNIVERSITÁRIO DE SINOP CURSO DE ENGENHARIA ELÉTRICA Princípios de Comunicações Aulas 01 e 02 Milton Luiz Neri Pereira (UNEMAT/FACET/DEE) 1 1.1 Informações,

Leia mais

COMUNICADO. Qualificação do profissional RADIALISTA LOCUTOR PROFISSIONAL. Página 1 de 5. COMUNICADO DIR N o 01/2016

COMUNICADO. Qualificação do profissional RADIALISTA LOCUTOR PROFISSIONAL. Página 1 de 5. COMUNICADO DIR N o 01/2016 COMUNICADO DIR N o 01/2016 CURSO DE EXTENSÃO: RADIALISTA LOCUTOR PROFISSIONAL A Diretora Geral Interina das Faculdades Integradas Machado de Assis FEMA, mantida pela Fundação Educacional Machado de Assis,

Leia mais

UNIDADE 2 CONCEITOS BÁSICOS DE MULTIMÉDIA. Objectivos

UNIDADE 2 CONCEITOS BÁSICOS DE MULTIMÉDIA. Objectivos UNIDADE 2 CONCEITOS BÁSICOS DE MULTIMÉDIA Objectivos 1 2 Objectivos Caracterizar os diferentes tipos de media existentes Definir o conceito de multimédia Diferenciar o conceito de multimédia Diferenciar

Leia mais

6 Conclusão Contribuições da Dissertação

6 Conclusão Contribuições da Dissertação 6 Conclusão Neste trabalho, foi apresentado um sistema colaborativo capaz de controlar as versões das edições de um vídeo no formato MPEG-2, sem que os editores estejam no mesmo local, ao mesmo tempo.

Leia mais

CONVERSORES AD/DA (ÁUDIO CODEC)

CONVERSORES AD/DA (ÁUDIO CODEC) MICROPROCESSADORES II (EMA864315) CONVERSORES AD/DA (ÁUDIO CODEC) 1 O SEMESTRE / 2017 Alexandro Baldassin MOTIVAÇÃO Sistemas digitais são usados para processar informação Informação no mundo real é analógica

Leia mais

Informática I. Aula Aula 22-12/11/2007 1

Informática I. Aula Aula 22-12/11/2007 1 Informática I Aula 22 http://www.ic.uff.br/~bianca/informatica1/ Aula 22-12/11/2007 1 Ementa Noções Básicas de Computação (Hardware, Software e Internet) HTML e Páginas Web Internet e a Web Javascript

Leia mais

DEFEITOS EM IMAGENS RADIOGRÁFICAS DE JUNTAS SOLDADAS EM TUBULAÇÕES: SEGMENTAÇÃO E EXTRAÇÃO DE DEFEITOS

DEFEITOS EM IMAGENS RADIOGRÁFICAS DE JUNTAS SOLDADAS EM TUBULAÇÕES: SEGMENTAÇÃO E EXTRAÇÃO DE DEFEITOS DEFEITOS EM IMAGENS RADIOGRÁFICAS DE JUNTAS SOLDADAS EM TUBULAÇÕES: SEGMENTAÇÃO E EXTRAÇÃO DE DEFEITOS * Aluno do curso Tecnologia em Sistemas de Telecomunicações da UTFPR jvrsschaid@gmail.com ** Aluno

Leia mais

FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS

FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS UNIVERSITÁRIO DE SINOP CURSO DE ENGENHARIA ELÉTRICA Princípios de Comunicações Aulas 01 e 02 Milton Luiz Neri Pereira (UNEMAT/FACET/DEE) 1 1.1 Informações,

Leia mais

Pós-Graduação em Engenharia de Materiais - POSMAT

Pós-Graduação em Engenharia de Materiais - POSMAT CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS Pós-Graduação em Engenharia de Materiais - POSMAT NORMAS DOS TRABALHOS ESCRITOS baseados na ABNT 14724, de17 de março de 2011. FORMATAÇÃO I. Deve-se

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Princípios de Telecomunicações. PRT60806 Aula 19: Modulação por Código de Pulso (PCM) Professor: Bruno Fontana da silva 2014

Princípios de Telecomunicações. PRT60806 Aula 19: Modulação por Código de Pulso (PCM) Professor: Bruno Fontana da silva 2014 1 Princípios de Telecomunicações PRT60806 Aula 19: Modulação por Código de Pulso (PCM) Professor: Bruno Fontana da silva 2014 Bloco de Comunicação Genérico Emissor sinais analógicos x sinais digitais Sinais

Leia mais

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso: Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume

Leia mais

Processamento de áudio em tempo real utilizando dispositivos não convencionais:

Processamento de áudio em tempo real utilizando dispositivos não convencionais: Processamento de áudio em tempo real utilizando dispositivos não convencionais: Processamento paralelo com Pure Data e GPU. André Jucovsky Bianchi ajb@ime.usp.br Departamento de Ciência da Computação Instituto

Leia mais