Finalização de frases na música e na fala. Waldemar Ferreira Netto (USP/CNPq) Introdução

Finalização de frases na música e na fala Waldemar Ferreira Netto (USP/CNPq) Introdução O programa de pesquisa ExProsodia tem por objetivo propor uma interpretação para a relação entre a entoação e a fala. Para isso, toma-se a entoação como uma sucessão de tons iguais ou diferentes que ocorrem na produção da fala. Essa interpretação sugere por si só que a entoação é uma série temporal que sofre a ação de várias componentes para sua configuração momento a momento. Uma série temporal se caracteriza por ser um conjunto de observações sequenciadas e dependentes entre si, isto é, o resultado da observação feita no momento t+1 condiciona-se ao resultado da observação feita no momento t, à maneira dos processos estocásticos (MORETTIN e TOLOI, 1986; PEREIRA et alii, 1986; EHLERS, 2007). A observação das frequências de uma onda sonora estabelece naturalmente uma série temporal na medida em que o valor observado para cada momento depende do valor do momento imediatamente anterior; nenhuma inversão de valores pode ser permitida, mas, ao contrário, a ordem de ocorrência deve ser mantida com uma informação inerente do valor obtido. A trajetória gráfica do conjunto de observações colhidas para o estabelecimento de uma série temporal pode ser interpretada como o resultado da soma de componentes diversas, com características independentes. Considerando-se que os valores obtidos mantêm entre si dependência serial, entende-se que se deve buscar o(s) fenômeno(s) que desencadeia(m) essa dependência. Assim, espera-se que os valores obtidos em cada momento resultem de uma conjunção de fatores diversos que, agregados, têm o comportamento observado e mensurado. Para a decomposição dessa série temporal, assumimos a hipótese proposta por Xu e Wang (1997). Os autores propuseram que a entoação ocorra sob a ação duas componentes principais: as que decorrem de restrições mecânico-fisiológicas e as que decorrem das necessidades expressivas dos falantes. Para o desenvolvimento de nosso trabalho, chamamos às restrições mecânico-fisiológicas de componente estruturadora e às necessidades expressivas, de componente semântico-funcional. A componente estruturadora decorre do esforço fisiológico mínimo dispendido para a produção de sonoridade na laringe. A componente semântico-funcional decorre das necessidades expressivas do falante, tanto para a produção de foco como a produção de ênfase. Em trabalho anterior (FERREIRA NETTO, 2006) [FIG 1], propusemos que a componente estruturadora seja formada pelo ritmo tonal. O ritmo tonal é a sucessão dos momentos da fala em que, alternadamente, o falante desencadeia esforço fisiológico para a produção de tom para, em seguida, dispensá-lo. Desse ponto de vista, ritmo tonal foi ainda decomposto em finalização (F) e sustentação (S). A componente semântico funcional foi definida somente como foco/ênfase (E). Na medida em que, na fala, a produção de sons tem de ocorrer durante a produção de segmentos soantes e que o falante usa alternadamente segmentos soantes e segmentos obstruintes ou pausas, a entoação é entrecortada sistematicamente, dando origem ao ritmo tonal. Aos momentos em que há produção de som, chamamos de UBI (sigla adaptada da expressão inglesa Unit of Base of Intonation). A ocorrência das UBI, portanto, está restrita às condições mínimas envolvidas na sustentação. Essas condições envolvem as variáveis de frequência, intensidade e duração, que não podem, obviamente, nenhuma delas igualar-se a zero; havendo ainda restrições restrições maiores que têm de de ser consideradas. Em nossa proposta, entendemos que 20 ms, 50 Hz e intensidade > 0 são suficientes para o estabelecimento de uma UBI.

Na medida em que a produção da fala exige esforço para sustentar a voz com uma frequência relativamente estável, Ferreira Netto (2006, 2008) [Fig. 2] e Peres e seus colegas (2009, 2011) propuseram a ocorrência de um tom médio ideal (TM) de F0, que se repete nos momentos Z(t) mensurados de F0. A supressão desse esforço desencadeia uma declinação pontual que exige a retomada da tensão inicial. A sustentação (S) é consequência do esforço que se acrescenta a cada um dos momentos da fala, incluindo-se o inicial, para compensar a declinação pontual de finalização (F). Ritmo tonal é consequência da ação dessas tendências que atuam em sentidos opostos, possibilitando a produção da fala. A componente F associa-se ao fato de que se trata do tom alvo da declinação pontual, estabelecida por um intervalo ideal decrescente de 7 st do TM obtido até o momento Z(t). TM é a tendência central dos valores válidos de F0 calculada como a média aritmética acumulada no tempo. A partir dessa frequência média, as frequências são categorizadas por um intervalo sistêmico lateral de 3 st acima e e 4 st abaixo do valor médio de cada uma (MARTINS; FERREIRA NETTO, 2010; 2011). Os valores válidos mensurados são os momentos de F0 (UBIs) que cumprem as restrições de altura, intensidade e duração. A série temporal se configura aditivamente como Z(t)=S(t)+F(t)+E(t). O modelo de análise apresentado permite a análise isolada de cada uma das componentes de F0. Unidade básica da entoação - UBI A seleção das unidades Z(t) ora chamadas de UBI para análise é feita pelo aplicativo ExProsodia (FERREIRA NETTO, 2010). O aplicativo faz a análise automática de porções da curva de frequência estabelecida por autocorrelação pelo software Speech Filing System (HUCKVALE, 1987, 2008; HUCKVALE et al., 2007). Três parâmetros são considerados para essa definição: frequência maior do que 50 Hz e menor do que 700 Hz; intensidade maior do que zero e, garantidos os critérios anteriores, duração maior do que 20 ms. Esses valores podem ser modificados pelo usuário. Frequência A seleção de 50 Hz como frequência mínima deu-se pela manutenção de um intervalo de segurança. O mesmo fato ocorre para as frequências mais agudas, com limite em 700 Hz. Russo e Behlau (1993) verificaram que falantes masculinos do português brasileiro têm uma frequência fundamental em torno de 105 Hz, os do sexo feminino têm 213 Hz, crianças antes da puberdade, em média, 290 Hz e recém-nascidos, em torno de 440 Hz. Mortari (1990) encontrou para vozes infantis entre sete e nove anos uma variação entre 182 e 281 Hz, para meninos e meninas, sem diferenças marcantes entre eles. Andrade (2003) encontrou para vozes masculinas uma variação média oscilando entre 110 e 146,7 Hz e, para vozes femininas, uma concentração acentuada em torno de 203,5 Hz. Felippe e colegas (2006) propuseram a normatização entre 119 e 120 Hz, para vozes masculinas, e entre 206 e 207 Hz, para vozes femininas. Apesar da variação na frequência fundamental na fala de língua portuguesa do Brasil, é possível estabelecer algum limite que abarque essa variação. Russo (1999) propôs que a área da fala, incluindo a frequência fundamental esteja desde 100 Hz até 8000 Hz, com intensidade variando entre 40 e 65 db. Tendo em vista objetivar-se a análise automática da fala e a população ser bastante heterogênea, optou-se por uma margem de erro mais extensa, sobretudo para as frequências mais graves, de maneira a não se rejeitar ocorrências falsonegativas. O programa de pesquisa ExProsodia considera uma margem de erro de 35%, a partir do valor médio mínimo de 100 Hz para vozes masculinas (RUSSO 1999), para o qual se pressupõe um valor final de aproximadamente 67 Hz, ou uma quinta descendente (FERREIRA NETTO; CONSONI, 2008), e se estabelece um valor mínimo de 50 Hz. Para valores mais agudos, o limite foi estabelecido arbitrariamente em torno de 2 vezes o valor da frequência média máxima das vozes infantis (ANDRADE, 2003). Esses valores, mínimo, de 50 Hz e, máximo, de 700 Hz são, os limites possíveis assumidos para a análise automática aceitar um momento Z(t) como passível de ser UBI.

Intensidade Tendo em vista especialmente as variações de frequência da onda sonora, a intensidade é tratada somente como parâmetro de avaliação de audibilidade dessa frequência. O aplicativo SFS analisa a variação de intensidade com uma taxa de amostragem de 200 Hz e apresenta os resultados como unidades de RMS (root mean square) dos picos de intensidade de porções de 25 ms. Ainda que variações de intensidade da onda sonora sejam reconhecidamente importantes, principalmente para as análises de ritmo, não foram tomadas como referência, por sujeitarem-se a estímulos extralinguísticos. Um valor entre 1 e 10 estabelece um corte nos momentos que tenham de 1/1 a 1/10 do valor médio da intensidade, em RMS. Entretanto, conforme já dissemos anteriormente (FERREIRA NETTO et al., 2013b), é possível que a intensidade possa acrescentar informações. Duração Boemio e seus colegas (2005) verificaram que, embora ambos os hemisférios processem informações em duas velocidades específicas 25-50 ms e 200-300 ms no giro temporal superior, a conexão que se faz com o sulco temporal superior é enfatizada no hemisfério esquerdo na velocidade de 25-50 ms e no hemisfério direito na velocidade de 200-300 ms. Dessa maneira ambos os hemisférios atuam nas tarefas de percepção linguística, mas cada um terá melhor especialização em tarefas específicas, no caso relativas à duração e à precisão da análise. Os valores apresentados estabelecem a possibilidade de ocorrerem resoluções diferenciadas e simultâneas em cada um dos hemisférios. Quanto aos valores mínimos entre 25-50 ms, outros autores encontraram resultados semelhantes (SCHAEFFER, 1966; HUGGINS, 1972; ROEDERER, 2002; STEVENS, 2000; HENRIQUE, 2002; MENEZES, 2003). Dada a necessidade de segmentar unidades de entoação na fala, a seleção de quatro momentos de análise do SFS, correspondendo a 5 ms cada um, estabelece uma duração mínima de 20 ms. Apesar de os valores mínimos propostos pelos autores já referidos estarem acima dessa opção, é seguro manter uma margem de erro maior para não se incorrer em falsos negativos. A finalização das porções significativas decorre de um teste z para cada elemento do conjunto proposto como UBI. Tom Médio Ferreira Netto (2006; 2008) propôs que o Tom Médio seja a média aritmética acumulada no tempo de todas as frequências válidas, isto é, que estejam de acordo com os limites de frequência mínima e máxima, duração mínima e máxima e intensidade mínima. Esse valor médio dominante é o que se presume seja a frequência-alvo do ritmo tonal do falante. Martins (2012) definiu o Tom Médio como cada uma das médias da série temporal = ( ) em que é o valor do Tom Médio, Z é cada uma das UBIs encontradas e t é a sua posição na série temporal. O valor do intervalo sistêmico lateral é calculado como 1,19, para o limite superior e ( 0,22). Esses limites seguem o principio estabelecido por T'Hart (1981) e por T'Hart e seus colegas (1990). Esses valores baseiam-se na variação em semitons, 3 st acima do TM e 4 st abaixo, calculando-se uma progressão geométrica de 0,06 para cada semiton. O cálculo utilizado para a conversão de Hz em semitons é midi= 12*log 2 (F m /440 Hz) + 69 em que midi (WOLF, s. d.) é a adaptação dos valores em Hz da escala temperada para valores midi, F m é a valor em Hz que se deseja converter para midi.

Finalização A componentes de Finalização (F) foi definida também em Ferreira Netto (2006; 2008). Trata-se de um valor localizado abaixo do Tom Médio, num intervalo de 7 st, ( 0,35). O intervalo de 7 st abaixo do Tom Médio equivale a uma variação semelhante a que ocorre num intervalo entre um tom Dominante e um tom Tônica, considerando-se a escala musical temperada. A hipótese de se imaginar a finalização de frases assertivas a partir de um intervalo descendente maior do Tom Médio parte de Ohala (1984) que ocasionalmente ocorre um pico de F0 mais agudo nas vozes que exibem uma maior confiança ocorre para fazer a queda final parecer ainda mais acentuada, i. e., resultar de uma altura maior. Em Ferreira Netto e Consoni (2008), foi possível verificar que há essa correlação entre Tom Médio e Finalização em frases assertivas da língua portuguesa falada no Brasil, especialmente nas leituras em voz alta. Baz e seus colegas (2014) verificaram que as finalizações assertivas em dados de leitura teatral ocorrem regularmente abaixo de 4 st, ultrapassando o intervalo sistêmico lateral inferior do Tom Médio. A pesquisa desenvolvida por Rosa (2015) corrobora esses resultados. Valendo-se de testes de percepção a partir de estímulos de frases espontâneas manipulados digitalmente, a autora verificou que os sujeitos não mostraram regularidade significativa no reconhecimento de frases assertivas com finalização descendente. Investigando as finalizações frasais assertivas entre mulheres idosas não letradas guatós, Costa (2009; 2010) verificou que tais finalizações não ocorrem em tom descendente. Baz (2011) encontrou fenômeno semelhante na fala e na música popular em guarani paraguaio. Com o propósito de verificar se essa característica era influência da fala indígena, Garcia (2015) empreendeu pesquisa entre idosos não letrados na região do médio Tietê e, comparativamente, na região norte de Portugal. Os resultados obtidos corroboraram os de Costa (2009; 2010) e de Baz (2011) e demonstraram que somente a variável referente ao letramento era comum a esses indivíduos. Considerações Finais Comparando dados de fala espontânea em guarani, leitura em voz alta em português do Brasil e fala espontântea em português do Brasil Ferreira Netto e Baz (2009), já haviam verificado que a organização entoacional do discurso é similar entre o guarani e a leitura em voz alta em português do Brasil; ambos os casos, por sua vez, diferem da fala espontânea do português do Brasil. Nesse trabalho, retomam as definição de Setti (1997) de que o sistema musical guarani preconiza melodias e harmonia monocórdias (de forma não-categórica), caracterizando um núcleo tonal que descarta efeitos polarizadores ou hierarquias de tom. Desse ponto de vista, é possível associar a entoação na fala com a entoação musical e estabelecer a hipótese de que as finalizações que buscam um tom descendente abaixo de 4 st visam um centro tonal finalizador, enquanto que as demais finalizações não buscam esse mesmo tom. Podemos buscar subsídios para essa hipótese numa análise histórica do desenvolvimento da escala temperada, largamente utilizada na música ocidental. Desde Zarlino (1571) houve a definição de semitom e, por decorrência dele, da inserção da nota sensível, o SI, na escala e, portanto, também na harmonia musical. Essa inserção promoveu a formação do princípio harmônico da modulação, pela criação do trítono, para dentro de si mesma. Embora Zarlino (1571) não deixasse isso claro, a mudança do trítono formado por III e VII b para IV e VII permitiu a noção de centro tonal, marcado pelo tom mais grave da escala. Essa criação acabou se tornando um divisor de águas da música chamada ocidental em relação a todas as outras. A partir dessa concepção, passou-se considerar sempre a diferença entre a música tonal, que é a nossa, e a música modal, que são todas as outras WISNIK (1989). Em 1722, Rameau definiu teoricamente o que hoje é quase senso comum de qualquer aprendiz de violão. É a chamada cadência perfeita D 7 >T, usando para o D 7 o trítono de Zarlino (1571) formado entre IV e VII. Esse fato foi avassalador na chamada música ocidental. Todas as músicas se passaram a compor de acordo com esses princípios. A música modal acabou restrita a algumas

manifestações quase fossilizadas, em algumas formas de cantos folclóricos ou cantos religiosos (PAZ, 2002). Para uma verificação rápida dessa diferença analisamos um conjunto [Fig 3] de 10 transcrições musicais de fandangos paulistas, retirados de Lima (1954; FERREIRA NETTO, 2010). O resultado foi de 9 ocorrências de finalização num centro tonal. Também analisamos um conjunto de 8 músicas guaranis e maxakalis retiradas do livro de Camêu (1977). Como elemento de comparação, analisamos também uma melodia popular. Nesse caso, o resultado foi categórico para todas as transcrições, com finalizações em torno do Tom Médio. A música maxakali não diferencia com clareza o tom médio de um centro tonal qualquer, que pode muito bem ser o próprio tom médio, por isso a caracterizamos como música modal. A melodia finaliza em torno desse tom médio. O fandango paulista tem bem diferenciados um tom médio e um centro tonal. A melodia se desenvolve sobretudo acima do tom médio e de um centro tonal grave, significativa abaixo do tom médio, mas sua finalização ocorre em torno do tom médio. A música folclórica Bitu, por sua vez, embora também ocorra marcadamente acima do tom médio, tem uma finalização no tom grave, que é o centro tonal. Schoenberg (2001) faz a diferença entre uma cadência harmônica plagal e uma cadência autêntica. Segundo ele, uma cadência plagal conclui frases "com menor clareza e poder de confirmação do que a cadência autêntica" (p. 428). [fig 4] O autor considera, também, que a própria melodia colabora para a formação de sua harmonia, uma vez que ela própria origina-se do som fundamental. (p. 200) A avaliação de Schoenberg parte da escala e das formações harmônicas estabelecidas desde Zarlino (1571) e Rameau (1722). A experiência etnomusicológica, entretanto, mostra que princípios diferentes podem ser obedecidos para a música. Roberts (1932) já chamava a atenção para o fato de que não é possível estabelecer escalas baseadas em nossas próprias concepções musicais para as músicas de outros povos. Mesmo para a música ocidental, Thomson (1958) propõe, ainda que de forma relativamente ingênua, que a tonalidade tenha sido maximizada a partir do século XVIII. Na medida em que nosso propósito é entender as relações entre a entoação e a fala, e a entoação pode representar durante a fala uma forma própria no uso de tons diferentes encadeados tal como a melodia o faz, é possível correlacionar as mudanças históricas na produção de melodias com mudanças na entoação. Assim, a entoação frasal assertiva dos grupos não letrados e dos não ocidentais que analisamos acima, não pode ser caracterizada como tonal, por não tem um ponto de convergência como nas finalizações autêntica, sendo portanto modal com finalização plagal. A entoação frasal assertiva das leituras em voz alta em língua portuguesa, por sua vez, podem caracterizar-se como tonais, na medida em que têm uma finalização autêntica, que aponta para um centro tonal, localizado a mais de 5 st abaixo do Tom Médio. REFERÊNCIAS 1997,.v. 1, p. 73-145. ANDRADE, L. M. O. Determinação dos limiares de normalidade dos parâmetros acústicos da voz. Dissertação (Mestrado em Bioengenharia) - Universidade de São Paulo, 2003, São Paulo. BAZ, D. G. M. As relações entre entoação frasal e melodia de músicas populares paraguaias. Tese (Doutorado em Filologia e Língua Portuguesa) - Universidade de São Paulo, 2011 BAZ, D. G. M. et al. Tonal variation in the finalization of Brazilian Portuguese sentences. In: LABORATORY APPROACHES TO ROMANCE PHONOLOGY-LARP, 7, Aix-en-Provence, France, 2014. BISPO, Antonio A. (org.). Jarbuch die musikkulturen der indianer brasiliens. Köln: Luthe-Druck, BOEMIO, A.; FROMM, S.; BRAUN, A.; POEPPEL, D. (2005). Hierarchical and asymmetric temporal sensitivity in human auditory cortices. Nature Neuroscience, 8(3):389-95. CAMÊU, H. Introdução ao estudo da música indígena brasileira. Rio de Janeiro: Conselho Federal de Cutura/Departamento de Assuntos Culturais, 1977.

CAMÊU, H. Introdução ao estudo da música indígena brasileira. Rio de Janeiro: Conselho Federal de Cutura/Departamento de Assuntos Culturais, 1977. COSTA, N. S. A. Variações entoacionais na língua portuguesa falada por idosos guatós e não-indios. In: ENCONTRO DE PÓS-GRADUANDOS DA FFLCH/USP, São Paulo, 2009 COSTA, N. S. A. Variações entoacionais na língua portuguesa falada por mulheres guatós. Tese (Doutorado em Filologia e Língua Portuguesa) - Universidade de São Paulo, 2010 EHLERS, R. S. (2007) Análise de Séries Temporais. Disponível em <http://leg.ufpr.br/~ehlers/notas/stemp.pdf> Acesso em 25/04/2008 FELIPPE, A. C. N.; GRILLO, M. H. M. N.; GRECHI, T. H. Normatização de medidas acústicas para vozes normais. Revista Brasileira de Odontologia, v. 72, n. 5, p. 659-664, 2006. FERREIRA NETTO, W. ExProsodia. Revista da Propriedade Industrial RPI, 2038, pág. 167, item 120, em 26/out/2010. FERREIRA NETTO, W. Variação de frequência e constituição da prosódia da língua portuguesa. Tese (Livre-Docência em Fonética da Língua Portuguesa) - Universidade de São Paulo, 2006. FERREIRA NETTO, W. A entoação da língua portuguesa. Uma abordagem musical. In: ESCOLA DE PROSÓDIA, LUSO BRAZILIAN ASSOCIATION OS SPEECH SCIENCES (LBASS), 1, 2010, São Paulo. Disponível em <http://www.youtube.com/watch?v=u1zpxul0-a0>. Consulta em 20 de jan. de 2014. FERREIRA NETTO, W.; BAZ, D. G. M. Questões de oralidade e escrita. Aquisição da escrita em sociedades com predomínio da oralidade: narrativas guaranis. In: INPLA INTERCÂMBIO EM PESQUISA DE LINGUÍSTICA APLICADA-INPLA, 17. Sâo Paulo, 2009 FERREIRA NETTO, W.; CONSONI, F. Estratégias prosódicas da leitura em voz alta e da fala espontânea. Alfa, n. 52, v. 2, p. 521-534, 2008. FERREIRA NETTO, W.; PERES, D. O.; MARTINS, M. V. M.; VIEIRA, M. F. Análise automática da entoação emotiva (colérica, triste e neutra) pelo aplicativo ExProsodia In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA, 9, 2013b, Fortaleza. GARCIA, R. R. A entoação do dialeto caipira do Médio Tietê: reconhecimento, características e formação. Tese (Doutorado) - Universidade de São Paulo, 2015. HENRIQUE, L. L. Acústica musical. Lisboa: Calouste Gulbenkian, 2002. HUCKVALE, M. A. et al. The SPAR Speech Filing System, In: EUROPEAN CONFERENCE ON SPEECH TECHNOLOGY, 1987, Edinburgh. HUCKVALE, M. A. Speech Filing System v.4.7/windows SFSWin Version 1.7, em 17/02/2008. Disponível em <http://www.phon.ucl.ac.uk/resource/sfs>. Acesso em 22 jan. 2013 HUCKVALE, M. A.; BROOKES, D. M.; DWORKIN, L. T.; JOHNSON, M. E.; PEARCE, D. J.; WHITAKER, L.; The SPAR Speech Filing System, In: European Conference on Speech Technology, Edinburgh, 1987. Disponível em: <http://www.phon.ucl.ac.uk/home/mark/papers/sparsfs87.pdf> Acesso em: 22 jan. 2013 HUGGINS, A. W. F. Just noticeable differences for segment duration in natural speech. Journal of Acoustical Society of America, v. 51, n. 4., p. 1970-8, 1972. LIMA, R.T. Folclore de São Paulo. São Paulo: Ricordi, 1954. MARTINS, M. V. M. Aspectos da percepção e do controle entoacional do Português Brasileiro. Tese (Doutorado em Linguística) - Universidade de São Paulo, 2012. MARTINS, M. V. M; FERREIRA NETTO, W. Prosódia e escalas de frequência: um estudo em torno da escala de semitons. Revel, v. 8, n. 15, 2010. MARTINS, M.; FERREIRA NETTO, W. Speech intonation and perception: a study of frequency scales for Brazilian Portuguese. Journal of Acoustical Society of the America, v. 129, n. 4, pt. 2, abr. 2011. MENEZES, F. A acústica musical em palavras e sons. São Paulo: Ateliê Editorial; Fapesp, 2003.

MORETTIN, P. A.; TOLOI, C. M. Séries temporais. São Paulo: Atual, 1986. MORTARI, A. L. Análise instrumental da frequência fundamental e da intensidade da voz de crianças e adolescentes. Dissertação (Mestrado em Distúrbios da Comunicação) PUC, 1990, São Paulo. OHALA, J. J. An ethological perspective on common cross-language utilization of F0 of voice. Phonetica, 41, p. 1-16, 1984. PAZ, E. A. O modalismo na música brasileira. Brasília: MUSIMED, 2002. PEREIRA, B. B.; PAIS, M. B. Z.; & SALES, P. R. H. Análise espectral de séries temporais uma introdução para economia, engenharia e estatística. Rio de Janeiro: Arte Final leasing Editoria/Eletrobrás; 1986. PERES, D. O.; CONSONI, F.; FERREIRA NETTO, W. A influência da cadeia segmental na percepção de variações tonais. LL Journal, v.6, p.3, 2011. Disponível em <http://ojs.gc.cuny.edu/index.php/lljournal/article/view/652/895>. Consulta em 25 de out. de 2015. RAMEAU, J.-P. Traité de L'Harmonie. Reduite à ses principes naturels. Paris: 1722. ROBERTS, H. H. Melodic composition and scale foundations in primitie music. American Anthropologist, New Series, v. 34, n. 1, p. 70-107, 1932., ROEDERER, J. G. The physics and psychophysics of music. An Introduction. 4th ed. New York: Springer, 2008. ROSA, R. C. M. Percepção e ExProsodia : correlação entre análise automática e a finalização de frases assertivas isoladas do Português Brasileiro. Dissertação (Mestrado em Filologia e Língua Portuguesa) - Universidade de São Paulo, 2015. RUSSO, I. Acústica e psicoacústica aplicadas à fonoaudiologia. São Paulo: Lovise, 1999. RUSSO, I.; BEHLAU, M. Percepção da fala : análise acústica do português brasileiro. São Paulo: Lovise, 1993. SCHAEFFER, P. Traité des objets musicaux : essai Interdisciplines. Paris: Éditions du Seuil, 1966. SCHOENBERG, A. Harmonia. Prefácio, trad do original em alemão de 1922 e notas de Marden Maluf. São Paulo: UNESP, 2001. SCHOENBERG, A. Princípios da composição musical. 3. ed. Trad. do inglês de 1967 por Eduard Seincman. São Paulo: EDUSP, 2008. SETTI, Kilza. Os índios Guarani-Mbyá do Brasil: notas sobre sua história, cultura e sistema musical. In STEVENS, K. Acoustic Phonetics. Cambridge: The MIT Press, 2000. T HART, J. Differential sensitivity to pitch distance, particularly in speech. Journal of Acoustical Society of the America, n. 69, v. 3, p. 811-821, 1981. T HART, J.; COLLIER, R.; COHEN, A. A perceptual study of intonation: an experimental-phonetic approach to speech melody. Cambridge: Cambridge University Press, 1990. THOMSON, W. The problem of tonality in pre-baroque and primitive music. Journal of Music Theory, v. 2, n. 1, p. 36-46, 1958 WISNIK, J. M., O som e o sentido. Uma outra história das músicaas. São Paulo: Companhia das Letras, 1989) WOLFE, J. et al. Musical Acoustics. Disponível em: <https://newt.phys.unsw.edu.au/jw/notes.html>. Acesso em: 26 out. de 2015 XU, Yi; WANG, Q.E. Component of intonation: what are linguistic, what are mechanical/physiological? In: INTERNATIONAL CONFERENCE ON VOICE PHYSIOLOGY AND BIOMECHANICS, 1997, Evanston Illinois. Proceedings... Evanston Illinois, 1997. Disponível em : <http://www.homepages.ucl.ac.uk/~uclyyix/voice.html> Acesso em: 25 de out. de 2015. ZARLINO, G. Dimostrationi Harmoniche. Venetia: 1571

Figura 1: Na figura, o eixo das ordenadas representa as variações em Hz e o eixo das abscissas, as variações em momentos temporais. A seta pontilhada horizontal superior representa o Tom Médio (TM) tomado de F0 e a seta pontilhada horizontal inferior representa a Finalização (F) de F0. As setas diagonais descendentes representam a tendência à declinação pontual definida momento a momento em direção à F e as setas verticais representam a tendência à retomada do TM para a sustentação do TM selecionado pelo locutor. Figura 2: Na figura acima, tem-se a representação do Ritmo Tonal, marcado com linhas azuis pontilhadas, numa ocorrência efetiva de F0, marcado pela linha vermelha contínua. Os valores à esquerda estão em escala midi. As siglas Z indicam cada um dos momentos mensurados de F0 (UBIs); as siglas F, as finalizações supostas, sendo a que vai marcada no momento Z (8) e a última à direita (Z (15) ) as que realmente se realizaram; as siglas S indicam os pontos de sustentação supostos, que estabelecem o Tom Médio.

Figura 3: Na figura acima, o primeiro grafico (em posição superior) representa o fragmento final de uma música maxakali. Conforme a explicação no texto, a variação tonal permanece entre os limites superior e inferior do bom médio e sua finalização ocorre também nesse intervalo, caracterizando uma entoação modal com finalização plagal; o segundo gráfico (em posição intermediária), representa o fragemento final de um gênero musical popular brasileiro, chamado fandango paulista. A variação tonal apresenta um desvio para tons mais altos em relação ao tom médio e tem uma finalização aquém dos limites do tom médio, caracterizando uma entoação tonal com finalização plaga. A figura mais abaixo representa o framento final de uma música bastante conhecida, Vem cá Bitu, no Brasil. A variação tonal apresenta um desvio para tons mais altos em relação ao tom médio e tem uma finalização que vai abaixo o limite inferior do tom médio, caracterizando uma entoação tonal com finalização autêntica. Figura 4: Na figura acima, há a transcrição gráfica da música "Desprezo as ricas salas" do folclore brasileiro. Na primeira linha vai a transcrição original. Na linha inferior, tem-se uma manipulação das finalizações de frases da melodia original, em que se substituiu o tom final original pela tônica de ré menor. A manipulação mostra que a finalização na tônica pode ocorrer em qualquer momento da melodia, dando independência a cada uma das frases melódicas.