Um método semiautomático para transcrever foneticamente corpora alinhados

Um método semiautomático para transcrever foneticamente corpora alinhados Maarten Janssen, IULA & Fabíola Santos, ILTEC XXVII Encontro Nacional da APL, FSCH, 26-28 outubro 2012

Estrutura da apresentação Objetivo Enquadramento Ponto de partida Metodologia Metodologia Transcrição fonética Resultados Conclusão

Objetivo Apresentar um método semiautomático de obter uma transcrição fonética larga, a partir da transcrição ortográfica existente de um corpus alinhado e que tem como subproduto um dicionário de pronúncia.

Enquadramento Este método surgiu no decurso do projeto Oral- -Phon que está a decorrer no ILTEC e consiste na criação de fiadas com informação fonética e morfológica para parte da porção transcrita ortograficamente do corpus Corp-Oral. Fazer este trabalho de transcrição fonética manualmente consome muito tempo e portanto foi necessário arranjar métodos que permitissem acelerar o progresso do trabalho.

Ponto de partida

Metodologia 1. A transcrição ortográfica é importada para um ficheiro TextGrid do Praat:

Metodologia 2. A fiada da transcrição é escrita para um ficheiro individual, etiquetada, dividida em palavras e importada de novo:

Metodologia- Transcrição fonética Premissas: corpus transcrito em ficheiro TextGrid; Base de dados ou regras para a transcrição/nada. Neste caso foi usada a BD do léxico OSLIN para o português, com 55 mil palavras já transcritas. Procedimento: A fiada das palavras etiquetadas é exportada isoladamente; Corre-se um script que procura numa base dados a palavra e devolve a sua transcrição fonética, usando a informação de POS para desambiguação, quando necessário; Uma nova fiada é criada com a transcrição vinda da base de dados e as transcrições inferidas não existentes na BD; A fiada é corrigida e exportada para a BD ou uma nova BD é criada no caso de não existir.

Metodologia- Transcrição fonética Esquema do processo File type = "ootextfile" Object class = "IntervalTier" xmin = 0 xmax = 2406.571247165533 intervals: size = 3350 intervals [1]: xmin = 0 xmax = 1198.882669501925 text = "" intervals [2]: xmin = 1198.882669501925 xmax = 1200.0117469670056 text = "boudoir/e " intervals [3]: xmin = 1200.0117469670056 xmax = 1202.1012835717063 text = "" intervals [4]: xmin = 1202.1012835717063 xmax = 1202.3336717443228 text = "casa/nfs" ortografia casa Perl script Transcrição fonética ka.zɐ File type = "ootextfile" Object class = "IntervalTier" xmin = 0 xmax = 2406.571247165533 intervals: size = 3350 intervals [1]: xmin = 0 xmax = 1198.882669501925 text = "" intervals [2]: xmin = 1198.882669501925 xmax = 1200.0117469670056 text =?bu. dɔjr" intervals [3]: xmin = 1200.0117469670056 xmax = 1202.1012835717063 text = "" intervals [4]: xmin = 1202.1012835717063 xmax = 1202.3336717443228 text = ka.zɐ" pai paj

Metodologia- Transcrição fonética Importação da fiada e correção

Metodologia- Transcrição fonética Exportação da fiada corrigida File type = "ootextfile" Object class = "IntervalTier" xmin = 0 xmax = 2406.571247165533 intervals: size = 3350 intervals [1]: xmin = 0 xmax = 1198.882669501925 text = "" intervals [2]: xmin = 1198.882669501925 xmax = 1200.0117469670056 text = bu. dwar" intervals [3]: xmin = 1200.0117469670056 xmax = 1202.1012835717063 text = "" intervals [4]: xmin = 1202.1012835717063 xmax = 1202.3336717443228 text = ka.zɐ" ortografia casa pai boudoir Perl script Transcrição fonética ka.zɐ paj bu. dwar

Resultados A percentagem de palavras do corpus que existem na BD situa-se nos 77%; Os restantes 23% correspondem a palavras geradas automaticamente (marcadas com?); Desses 23%, 70% surgem corretas, enquanto as restantes 30% têm que ser corrigidas ou é necessário selecionar entre produções alternativas (ex.: g[ɐ]nhar e g[a]nhar); A maioria dos erros em palavras geradas relacionam-se com alturas de vogais; Na prática, existe uma poupança de tempo na ordem dos 70%, o que extrapolando para todo o corpus, reduz de aprox. 500 horas para 150 horas o tempo necessário para a realização da transcrição.

Conclusões Processo bastante simples que proporciona poupanças significativas de tempo; Essas poupanças aumentam ao longo da tarefa visto que a base de dados vai sendo aumentada; Outros tipos de informação pode ser acrescentada (ex. lema, etc.); Processo que permite reaproveitar trabalho feito. Mesmo não existindo base de dados inicial, se a tarefa tem que ser realizada, ela pode ser criada e ser reutilizada e melhorada infinitamente no futuro.

Obrigada fabiola.santos@iltec.pt