o PAPEL DAS VOGAIS REDUZIDAS POS- TONICAS NA CONSTRUCAo DE UM SISTEMA DE SiNTESE CONCATENATIVA PARA 0 PORTUGuES DO BRASIL ABSTRACT: By differentiating stressed vowels (which generally occur in strong environments) from poststressed vowels (which generally occur in weak environments) for recording the synthesis system unit dictionary, we have been able to introduce some prosodically conditioned characteristcs of natural speech at the segmental level. Este texto resume uma dissert39io de Mestrado constituida, basicamente, de duas partes: a primeira delas content, alem de uma resenba sobre a hist6ria e 0 funcionamento de sistemas de sintese de fala, 0 detalbamento das etapas da elabora~o do corpus de unidades do sistema e sintese de fala concatenativo que vem sendo desenvolvido no LAFAPE (Laborat6rio de Fonetica AcUstica e Psicolingilistica Experimental) do IEL - UNICAMP. A segunda parte consiste em urn estudo fonetico-acusticocomparativo entre as vogais pos-tonicas e tonicas da fala de urn informante do portugues do Brasil (doravante PB), estudo que tinha, como urn de seus objetivos, avaliar algumas decis5es previamente tomadas durante it sel~o das unidades concatenantes que fariam parte do corpus do sistema de sintese de fala do LAFAPE. Em busca de uma fala sintetica de boa qualidade, a principal decisao tomada durante a elabo~o do corpus do sistema de sintese, foi a de contemplar, na medida do possivel, as principais interacoes existentes entre a pros6dia e os segmentos. Do ponto de vista dinfunico (em modelos como a Fonologia Articulat6ria Browman & Goldstein (1986», tanto 0 ritmo como a informa~o segmental sao produzidos por osci1acaes de maior ou menor for~. Assim, e natural que a estrutura pros6dica afete diretamente 0 conteudo segmental. Segmentos plenos sao produzidos em posicaes prosodicamente fortes, emitidas com maior for~, e segmentos reduzidos sao produzidos em posicoesprosodicamente fracas, emitidas com menor fo~. Utilizaram-se, entao, unidades que contemplam as diferen~ foneticas existentes entre os segmentos plenos e os reduzidos. Quanto as consoantes, foram tratadas as de onset silabico como segmentos plenos e as de coda como segmentos reduzidos. Quanto as vogais, as tonicas e pre-tonicas foram tratadas como segmentos plenos, enquanto as vogais pos-tonicasforam tratadas como segmentos reduzidos.
362 Acreditava-se que as vogais, por serem os nucleos siblbicos e por serem extremamente afetadas pela pros6dia, muito mais do que as consoantes, mereciam urn estudo especial, que levasse em considera930 a intera930 entre a pros6dia e 0 segmento, para que se garantisse uma fala sintetica de boa qualidade. Como ainda nao havia urn estudo tiio especifico sobre as vogais, quando se tornaram viaveis as possibilidades de iniciar as ~ do corpus, fez-se urn estudopiloto, cujos resultados estiio de acordo com camara Jr (1971), que propos que as vogais tonicas e pre-tonicas nao se diferenciam, enquanto h3 diferencia930 das p6stonicas em reta930 as demais. As p6s-tonicas, sofreriam a chamada "redu930 vocatica". Foram gravadas, entiio, unidades contendo vogais tonicas que seriam usadas para concatenar tanto as tonicas quanto as pre-tonicas e unidades contendo vogais p6stonicas, diferenciando as pos-tonicasdas demais. o corpus resultante constituiu 0 proprio corpus para 0 estudo foneticoacusticosobre as vogais que passou, entiio, a ser feito. Foram medidos, manualmente, atraves do algoritmo FFT, no CSL4300 da Kay, os quatro primeiros formantes e a ~o das trinta ocouencias de cada vogal (acresceu-se ao corpus inicial 0 conjunto das vogais Ials p6s-tonicas nao finais, para garantir simetria). A primeira teoria relevante sobre redu930 vocatica (Camara Jr. (1971» considera a redu930 urn Unicofenomeno, realizado de dois diferentes modos: a redu930 do numerode fonemas (neutraliza93o) e a diferente realiza930 fonetica. Ha, no entanto, dois motivos para considerar esses dois aspectos como fenomenos distintos: a) 0 fato de a vogallal nao ser afetada pela neutraliza930, mas peta re<lu930propriamente dita e b) o fato de a neutraliza~ corresponder a urn processo categ6rico: h3 diminui~o do numero de fonemas conforme a tonicidade. A ~o como se ve, se apresenta como urn processo gradiente: o ~ I-A I...= f> ~-UI::.!: "Ap 400+----------=--=::=-"-"------ AU.<> "t'.~".. :e 'N - - --- - - oo g = :: _ ~~::=.~.ga 0 I"E I ",~ hi,.; cooo -----~_ ~~ ad _,.eh e 500 [ 600+-,',_.,_.,,:_,.i. _"' -_-... -...-A-_ loc X X [I 700 - I I 600+----.-------r-----r--..-----~~---~--.-------r--,:~p 2300 2100 1900 1700 1500 1300 1100 900 700 500 ~
363 A segunda e a de Lindblom (1963), que considera a existencia de urn alvo: a vogal que 0 falante tern intencao de realizar seria a tonica. Esse alvo seria rnais facilrnente atingido quanto rnaior a duracao da Yoga!. Quanto menor a duracao, rnais dificilmente tal alvo seria atingido, ocorrendo 0 undershoot. Infere-se dessas afirrna es que quanto rnaior a duracao de urna vogal menor a dispersao que suas realiza~oesdeveriam ter ern relacao ao alvo. Poder-se-ia supor, conforme a teoria target undershoot de Lindblom, que as vogais tonicas, por serem significativarnente rnais longas do que as pos-tonicas (resultado comprovado pelos valores obtidos atraves das medidas efetuadas neste trabalho), levarn rnaior tempo para atingirem 0 alvo, 0 que acarretaria urna menor dispersao das tonicas do que das p6s-tonicas. Essa teoria MO explica, no entanto, 0 fate de a vogal Ia! ser, juntarnente corn a vogal lobi, a rnais longa, e, mesmo assirn, apresentar, conforme se ve na figura acirna, urna dispersao rnaior do que as dernais vogais tonicas. Outro fator de que essa teoria MO cia conta e 0 de MO haver urna rnaior dispersao dos valores das pos-tonicas circundando 0 valor que corresponderia it vogalalvo. No gnifico da figura I, as Unicas vogais que apresentarn disperscies semelhantes as propostas por Lindblom sao as posteriores [u] (tonica), [0] (p6s-tonica final) e [Op] (p6s-tonica Me-final). Adrnitindo que isso ocorresse, haveria 0 problema de estabelecer 0 Iu/, e MO rnais 0 10/, como alvo para as reduzidas. Observando as vogais anteriores e, principaimente, as centrais, MO parece haver uma variacao de ocorrencias ao redor do alvo, tudo indica que se trata, na verdade, de alvos diferentes. A Unicavogal tonica que apresenta grande dispersao e a vogal que se encontra na posicao rnais isolada do gnifico. Nao parece coincidencia 0 fato de 0 Ia! ser produzido numa regiio do trato isolada ern relacao as de outras vogais tonicas - a regiao faringea. Talvez seja a menor. necessidade de distinguir essa vogal das dernais que leve 0 falante a relaxar seus articuladores no momento de produzi-la. Esse possivel relaxarnento dos articuladores acarretaria, segundo Stevens & House (1955), a producao de urn schwa, 0 que pode ser comprovado pela trajet6ria das diferentes produ es da vogal la!, na qual se nota que [Ap] (a rnais reduzida das centrais) e bastante centralizada no gnifico, ocupando uma posi~ao proxima da que ocuparia a vogal neutra. 0 mesmo fenomeno pode-se observar para as anteriores, das quais [Ep] ocupa a posicao rnais centralizada. Nao se pode, no entanto, justificar essa teoria atraves dos valores das posteriores que MO parecem mover-se para 0 centro do espa~o vocalico: as vogais pos-tonicas, finais e Mo-finaiS ocuparn praticarnente 0 mesmo espa~ ocupado pelo [u], corn urna rnaior dispersao. Diferentemente do esperado, observararn-se diferen~s significativas entre as vogais [A] e [Ap], 0 que aponta para a necessidade de inserir as unidades forrnadas por Ap no corpus do sistema de sintese do LAPAPE. Tarnbem diferentemente do esperado, percebeu-se uma grande e interessante influencia da consoante precedente (CP) sobre as vogais pos-tonicas. Ela influencia todos os formantes das pos-tonicasenquanto, das tonicas, influencia apenas 0 F3.
Vogal Variavel deoendente Valor de F Valor de Pr>F Tonica Fl 1.22 0.2169 Pas-tOnica Fl 2.3 0.0007 Tonica F2 1.1 0.3430 Pas-tonica F2 2.56 0.0001 Tonica F3 5.17 0.0001 Pas-tonica F3 8.18 0.0001 Tonica F4 1.08 0.3698 Pas-tonica F4 3.84 0.0001 Tonica DUR 4.8 0.0001 pos-tonica DUR 3.56 0.0001 Parece, entio, que uma grande coarticul~o da vogal tonica com a CP e mais urn fenomeno caracteristico da r~o vocaiica. E interessante observar os valores de F para F3 ( F e 0 valor de urn teste que verifica se as variancias das classes definidas pelas variaveis sio iguais ou diferentes, e a probabilidade desse teste incorrer em erro e dada por Pr>F) que, alem de ser 0 Unico formante da tonica afetado por CP, apresenta os maiores valores de F: tanto para as p6s-tonicas, quanta para as tonicas. Os dados indicam que hci influencia da CP sobre F3, independentemente da tonicidade da vogal e sobre todos os formantes da pos-tonicas. A influencia de CP sobre a pos-tonica traz urn dado que coloca urn impasse para a sintese concatenativa., mas, para 1130 aurnentar demasiadamente 0 corpus de unidades, optou-se por, mesmo sabendo que 0 ideal seria 1130 realizar cortes no interior de segmentos reduzidos, segmentar as vogais pos-tonicas pois, caso contrario, haveria urn aurnento da ordem de vinte mil unidades no corpus. Uma vogal precedida por qualquer consoante sera concatenada a segunda parte extraida de uma vogal precedida por /pi ( consoante que menos afeta a vogal). A altera~o provocada por CP na primeira parte da vogal pode provocar grandes descontinuidades na concatena~o com a segunda parte e, para remediar esse problema, optou-se por utilizar unidades demissilcibicas para a concatena~o. As demissilabas (Fujimura & Lovins, 1978) se diferenciam dos difones na medida em que, para a obten~ desses, se realiza 0 corte no centro de fase estacionciria (geralmente regiao central). Para as demissilabas, realiza-se 0 corte no final da transi~o, evitando que fases estacioncirias diferentes sejam concatenadas: a fase estacionciria sera somente a da segunda parte da vogal. Chega-se, agora, a urn maior conhecimento do sistema vocaiico do PB. Os resultados obtidos estao de acordo com a visio pragueana. que afirmava que 0 arquifonema poderia ter uma real~o fonetica diferente daquelas dos fonemas neutralizados (Trubetzkoy, 1949). A neutraliz~o estabelece urn alvo novo para as vogais, em tomo do qual elas se dispersa.m, caraeteristicamente. 0 novo alvo e 0
365 resultado da neutra1iza~o, enquanto a grande dispersao ern tomo dele decorre da redu~o. Acredita-se, portanto, que se trata de processos distintos. Nao se pode afmnar que as p6s-tonicas lei e 101 se realizam como urn [i] e [u]. Pode-se ver, atraves dos resultados estatisticos que 0 [E] se diferencia tanto de lei, quanto de Iii. Somente 0 [0] apresenta urna tendencia de aproxirnar-se rnais de luf do que de 10/, diferenciando-se daquele, ainda assirn, quanto a F3 e ilclura9iio. Essa assimetria entre os pares anterior (iie) e posterior (ufo), sugerindo que as p6s-tonicas posteriores sao rnais redutiveis do que as anteriores, parece refletir urna tendencia do PB ja observada por camara Jr. (1971) ao propor que nao havia a posterior na posi~o da p6s-tonica da posi~o medial. Cabe ressaltar que a diferen~ entre as vogais [u] e [0] sofoi depreendida pela conside~o dos 4 prirneiros forrnantes das vogais, levando-se ern conta a afirrna~o de Fant (1960) de que sao os tres prirneiros forrnantes os principais deterrninantes da qualidade fonetica de urna vogal. camara Jr. (1971: 23) ja demonstrava consciencia, tambem, do fato de que lei e 101 sao vogais diferentes das dernais quando afirrna que elas se realizarn como urn debil Iii e urn debil luf, respectivarnente, mostrando, assirn, a per~o de urna diferen~ entre esses dois pares. Talvez 0 que faltasse para que esse pioneiro fosse rnais radical e desvinculasse tais pares era urn aparelho que perrnitisse a analise acustica dessas vogais, aparelho de que hoje se dispoee que passa a fomecer dados importantes para embasar hip6teses fonol6gicas. Corn 0 estudo comparativo das vogais p6de-se concluir que algumas decisoes tornadas na elabora~o do corpus do sistema de sintese nao forarn acertadas. Ern primeiro lugar, 0 fato de haver urna forte interferencia da consoante precedente sobre a vogal coloca, ern principio, ern risco a decisao de nao contemplar a transi~o entre elas nas unidades do corpus. Contemplar tais transiyoes, no entanto, levaria a urn aurnento exponencial do niunero de unidades. o uso das dernissilabas como unidades pode contomar 0 problema acirna, mas somente a qualidade auditiva do sistema podeni confirmar essa hip6tese. E interessante apostar na tentativa de contomar esse problema a firn de viabilizar urn sistema que possa ser confeccionado corn os recursos materiais e hurnanos do LAFAPE. Aproximadarnente 700 horas seriam necessariaspara gerar as 20000 unidades estirnadas caso nao houvesse corte ern segrnentos reduzidos. Urn fator CP.1eaponta para a possibilidade de 0 problema ser contornado consiste na pequena influencia que as consoantes precedentes tern sobre as vogais tonicas. Como tanto as pre-tonicas quanto as tonicas serno concatenadas a partir de unidades extraidas de posi~o tonica, as p6s-tonicas serno rninoria. Assim, 0 problema podeni ser ocultado, ao menos ern parte. Caso as dernissilabas nao sejam suficientes para contomar 0 problema da influencia da consoante precedente sobre a vogal, haveni a necessidade de urn estudo especifico sobre essa influencia. Faz-se necessario ressaltar que tal influencia foi apontada, mas nao chegou a ser investigada neste estudo. Para tanto, seriam necessarias varias repetiyoes da mesma sequencia consoante-vogal, de forma a deterrninar quais sao, exatamente, tais influencias: quais as consoantes (ou grupos) que
366 exereem essas influencias, etc. Resultados desse tipo podem indicar que algumas unidades longas sao indispens{lveisao sistema, e outras, menos necessiuias. Quanto as vogais, foi correta a decisao de distinguir t6nicas e pre-tonicas de p6s-tonicas, pois essas sao completamente diferentes daquelas. Utilizar a mesma unidade nessas posi95esteria causado erros de acen~o sistenuiticos. Depois do corpus do sintetizador gravado e digitalizado, alem de 0 estudo aqui relatado, foram feitos testes de concatena~o. Esses testes vieram confirmar que, diferenciando-se vogais tonicas e pos-tonicas, a qualidade da fala sintetizada ja e razoavel, pois ha 100% de acerto na col~o do acento lexical RESUMO: Uma qualidade significativa na fala sintetica foi conseguida atraves da diferenciafiio das unidades plenas (consoantes de onset e vogais tonicas e pretonicas) e reduzidas (consoante de coda e vogais pos-tonicas). Esse recurso permite, sem a utilizafiio de nenhuma informafiio prosodica. a identificafiio correta de todos os acentos lexicais. ALBANO, E. C.; MOREIRA, A A; SILVA, A H. P.; AQUINO, P. A e KAKINOHANA, R (1995) Um conversor fonico-metrico para sintese de fala em lingua portuguesa. Trabalho apresentado no I CeISul, Florian6polis, novembro, a ser publicado como Um conversor ortognifico-fonico e uma no~o pros6dica minima para sintese de fala em lingua portuguesa, in Scarpa, E. M (org) Estudos de Prosodia no Brasil, submetido it Editora da UNICAMP. BROWMAN, C. P. & GOWSTEIN (1986) Towards an articulatory phonology Phonology Yearbook (3),219-252, Great Britain. CAMARAJR., 1. M (1971) Problemas de Lingiiistica Descritiva. Petr6polis: Vozes FANT, G. (1960) Acoustic Theory of Speech Production. 'S-Gravenhage; Mouton. FUJIMURA, O. & LOVINS, 1. (1978) Syllables as Concatenative Phonetic Elements, in A Bell & J. Hooper (eds.) Syllables and Segments Amsterdam: North Holland, 107-120. LINDBLOM, B. (1963) Spectrographic Study of Vowel Reduction The Journal of the Acoustical Society of America, 35, (1),1773-1781. STEVENS K. N. & HOUSE, A S. (1955) Development of a Quantitative Description of Vowel Articulation, The Journal of the Acoustical Society of America, 27, (3), 484-493. TRUBETZKOY, N. (1949) Principes de Phonologie, Paris, Klincksieck.