Exp 8. Acústica da Fala 1. Objetivos Estudar o modelo fonte-filtro da produção da fala; Medir os formantes e relacionar com manobras articulatórias em vogais e ditongos; Utilizar espectrografia de banda larga e banda estreita; 2. Introdução Os principais órgãos e cavidades do corpo humano relacionados com a acústica da fala estão indicados na Fig. 1. Na produção de vogais, o ar expelido pelos pulmões interage com as pregas vocais, fazendo-as vibrar de forma quase periódica. A série de pulsos glóticos é modificada pelas cavidades oral e/ou nasal, e o som é irradiado na boca e/ou narinas. O grau de acoplamento do trato nasal é determinado pela elevação do véu palatino. Os movimentos da língua, maxilar, e lábios, dão forma à cavidade oral, dependendo do som a ser produzido. Fig. 1. Trato Vocal. 2.1 Formantes As ressonâncias do trato vocal na vogal neutra (produzida com a língua em repouso) podem ser estimadas a partir de um tubo cilíndrico uniforme, fechado na glote e aberto nos lábios, com comprimento l 17 cm e diâmetro 2r 3,5 cm. Admitindo-se apenas a propagação longitudinal (f < 5kHz), 30 verifica-se que os modos normais ou 20 Fi formantes (F1, F2, F3, etc.) ocorrerão aproximadamente nas freqüências: F n ( 2n + 1) 500Hz, n = 1, 2, 3L (1) Perdas causadas pela viscosidade do ar e pela irradiação nos lábios aumentam com a freqüência. Isto causa maior largura de faixa e menor amplitude dos formantes (ressonâncias) na parte superior do espectro (Fig. 2) Amplitude (db) 10 0-10 -20-30 -40 0 1000 2000 3000 4000 5000 Frequência (Hz) Fig. 2. Formantes (vogal neutra)
Fig. 3. Freqüências (Hz) e amplitudes (db) dos formantes de vogais. Valores médios para locutores masculinos e femininos. Fonte: Flanagan, J. (1972). Speech Analysis, Synthesis and Perception, 2 nd. Ed. Springer-Verlag, New York. Os três primeiros formantes (F1, F2, F3) estão associados à vogal (/i/, /a/, /u/, etc.) enquanto os formantes de ordem superior têm maior dependência com o locutor. Valores médios de F1, F2, e F3 para vogais da língua inglesa estão indicados na Fig. 3Fig.. A freqüência de F1 diminui quando a língua se eleva, estreitando o trato vocal. Por outro lado, o avanço/recuo da posição do estreitamento resulta num aumento/diminuição da freqüência de F2. A análise de formantes, ou medidas correlatas, é a base de sistemas de reconhecimento de voz. 2.2 Fonação Durante a fonação, as pregas vocais abrem e fecham de forma quase periódica. Na fala de adultos, o valor da freqüência de vibração, F0, é, em média, 120 Hz para homens e 220 Hz para mulheres. O pulso glótico é assimétrico, pois o fechamento das pregas vocais ocorre mais rapidamente que a abertura. Como indicado na figura 4, o trem de pulsos glóticos, g(t), pode ser decomposto numa série de componentes harmônicas, múltiplas inteiras da freqüência fundamental, F0. 2.2 Modelo fonte-filtro-irradiação Combinando-se os pulsos glóticos (fonte) com a resposta em freqüência do trato vocal (filtro) e ainda o efeito dos lábios (impedância acústica de g (t) 1/F 0 0 ( f G T ) F -12 db/oitava 0 F 0 2 F 0 3 F 0 f t Fig. 4. Fonte de excitação glótica. O espectro do trem de pulsos G(f) é composto por uma freqüência fundamental (F 0 ) e uma série harmônica onde a amplitude de cada termo é determinada por uma envoltória, que cai em -12 db/oitava (fora de escala na figura). Exp 8 Acústica da Fala 2/6
Fig. 5. Simulação da pressão sonora numa vogal /a/. 5 ms/div irradiação), tem-se a forma de onda da pressão sonora emitida durante a fala. As formas de onda para a simulação de uma vogal /a/ são mostradas na figura 5. A interação fonte/filtro/irradiação é vista de forma mais simples no domínio em freqüência (Fig. 6), onde o espectro do sinal de voz, V(f) é escrito como: V ( f ) = G( f ) H ( f ) R( f ) (2) sendo G ( f ) o espectro da fonação, H ( f ) a resposta em freqüência do trato vocal e R ( f ) o comportamento em freqüência da impedância de irradiação. A irradiação por uma pequena abertura (lábios) num grande plano refletor (face) pode ser aproximada por um filtro passa-altas, como visto no seminário 3. Fisicamente, isto significa que sons de baixa freqüência se espalham por difração enquanto sons de alta freqüência tendem a se propagar em linha reta. O modelo fonte filtro supõe uma independência entre os ajustes articulatórios (filtro) e a vibração fonatória. Nas freqüências da fala, isto se justifica pelo valor máximo da abertura glótica (~2 mm x 20 mm), desprezível em relação ao diâmetro do trato vocal supraglótico. Em outras palavras, a impedância acústica (inversamente proporcional à área do tubo) é muito maior entre as pregas vocais que nas cavidades orofaríngeas. FONTE F 0 FILTRO IRRADIAÇÃO (som) Pregas Vocais Cavidades Orais Lábios G ( f ) H ( f ) R ( f ) V ( f ) -12 db/oitava +6 db/oitava Fig. 6 Modelo fonte-filtro. Representação no domínio da freqüência. F 1 --F 4 são ressonâncias ( formantes ) do trato oral, H (f); F g relaciona-se com a forma do pulso glótico. Note, no espectro na parte inferior à direita da figura, que os harmônicos localizados em torno de algum formante são amplificados pelo fenômeno da ressonância. Exp 8 Acústica da Fala 3/6
3. Exercícios 1. Obtenha a freqüência dos formantes para o tubo cilíndrico uniforme (Eq. 1). 2. Os formantes são estimados a partir da análise do espectro do sinal de voz. Qualitativamente, o que ocorre com o espectro de V(f) quando a freqüência fundamental de fonação, F0, aumentar? Será possível definir os formantes? Por quê? (Lembre-se: Os formantes são as freqüências de ressonância do tubo). 3. Verifica-se que (i) a envoltória do espectro glótico decresce em -12 db/oitava e que (ii) a impedância de irradiação aumenta em +6 db/oitava. Como isto afeta a amplitude dos formantes? Como isto pode ser compensado? 4. Bibliografia 1. T.D. Rossing, Speech Production (Cap. 2), in The The Science of Sound (2 rd. Ed.) Addison-Wesley, New York (1990). 2. I. R. Titze, Principles of Voice Production Prentice-Hall (1994). 3. M.N. Vieira, Princípios da Produção e Análise de Voz XV Escola de Inverno Departamento de Física/ICEx/UFMG (2004). 5. Anexo: Espectrograma Espectrograma: representação do sinal no plano f t (freqüência versus tempo). Uma terceira dimensão, a amplitude das componentes espectrais, pode ser criada através do nível de cinza (ou cor) das curvas. Um espectrograma é, basicamente, a indicação temporal da energia na saída de um banco de filtros. Ajustando-se de alguma forma a largura de faixa (seletividade) dos filtros é possível ressaltar-se (1) os formantes ou (2) os harmônicos da excitação. Como mostrado na figura, no espectrograma de banda larga (BL), há uma melhor definição dos formantes, ao passo que no espectrograma de banda estreita (BE) há uma melhor definição dos harmônicos da freqüência fundamental Exp 8 Acústica da Fala 4/6
5. Parte Prática 5.1 Material Computador com microfone e caixa de som Software Audacity para edição de sinais http://audacity.sourceforge.net/download/ Software Wavesurfer para análise espectral da fala (http://www.speech.kth.se/wavesurfer/) 5.2 Procedimentos Observações: Ao fazer as gravações, utilize uma freqüência de amostragem de 11025 Hz. Durante as gravações, certifique-se que não esteja havendo saturação, mantendo o nível do sinal em -6 db (Referência: fundo de escala). Fazer um relatório, ilustrando com formas de onda e espectros e anexando exercícios. 5.2.1 Estudo de vogais no domínio do tempo. 1. Familiarize-se com o software Audacity e grave uma seqüência de vogais (/i/, /a/, /u/) com valores recomendados de amplitude e taxa de amostragem. 2. Dê um zoom e observe a quasi-periodicidade do sinal. Meça a freqüência fundamental F0 (média de vários ciclos) para cada vogal. Repita o procedimento com a voz de seu colega de trabalho. 3. Compare os valores de vozes masculinas e femininas, se possível. 5.2.2 Espectro de vogais. 1. Familiarize-se com o Wavesurfer, identificando os recursos de análise espectral (espectrograma, seção espectral e espectro médio de longo prazo LTAS = long term average spectrum). Verifique a influência de ajustes como o número de pontos da FFT e o tipo de janela na seção espectral. 2. Produza diferentes vogais (/i/, /a/, /u/). Numa seção espectral em banda estreita (voz masculina: 1024 pontos da FFT e 512 pontos para a janela), determine a freqüência fundamental e os 3 primeiros formantes. Repita para o colega de trabalho. Compare os valores medidos com os esperados. 3. Mantendo a vogal, varie a freqüência fundamental e descreva o que ocorre (use um espectrograma de banda estreita para registrar). O que ocorre com F0 e com os formantes? Exp 8 Acústica da Fala 5/6
4. Visualizando o espectro num espectrograma de banda larga (voz masculina: 1024 pontos para FFT e 64 pontos para a janela), produza ditongos (/ai/, /ui/, etc.). Descreva o comportamento de F1 e F2 e relacione com os gestos de elevação e avanço da língua. 5. Fale com uma voz sussurrada. O que ocorre? Tente explicar onde está a fonte sonora. 5.2.3 Percepção 1. Visualizando o espectro num espectrograma de banda larga, grave ó o auê aí, oh!. Descreva o comportamento de F1 e F2 do a no contexto... o auê... e no contexto... auê aí.... Sugira uma hipótese para a perfeita compreensão do fonema /a/ apesar dos formantes estarem em freqüências diferentes para dois casos citados. Exp 8 Acústica da Fala 6/6