Um método semiautomático para transcrever foneticamente corpora alinhados

Documentos relacionados
Corp-Oral: Corpus oral do

Oral-Phon - um corpus do Português Europeu foneticamente transcrito. Manual de utilizador. Junho de 2012

Manual para uso do PRAAT. 1. Baixar o PRAAT na página (há versões para Mac, Windows e LINUX)

Procura-PALavras (P-PAL):

Variação prosódica no Português Europeu: análise comparada de fenómenos de sândi vocálico

Phon: Ferramenta para pesquisa de dados em aquisição fonológica. Corpus monolingue para a aquisição da fonologia do PE Pesquisas e relatórios

Sage VERSÃO Sage Janeiro 2017

Marisa Cruz & Sónia Frota. XXVII Encontro Nacional da APL

Procura-PALavras (P-PAL):

Ensino Português no Estrangeiro Nível B1 Prova B (14B1BS) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Ensino Português no Estrangeiro Nível B1 Prova B (14B1BA) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

Importar dados no formato txt

>>> conta_vogais( testevogais.txt ) { a : 36, u : 19, e : 45, i : 16, o : 28}

APOIO PEDAGÓGICO. Fonêmica Premissas e conceitos básicos. Nívia Aniele PosLin - FALE

Ensino Português no Estrangeiro Nível B1 Prova A (13B1AE) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Quadro 1 Distribuição da cotação

SETFON: O PROBLEMA DA ANÁLISE DE DADOS PROSÓDICOS, TEXTUAIS E ACÚSTICOS

BALCÃO 2020 ORIENTAÇÕES DE APOIO PARA REGISTO DE MAPAS DE QUANTIDADES E AUTOS DE MEDIÇÃO

BOAS PRÁTICAS PEDAGÓGICAS. Faculdade de Farmácia da Universidade do Porto. Índice Introdução Provas Escritas... 2

Documento Geral Explicativo. GS1 Portugal

MANUAL DE UTILIZAÇÃO COLETOR OPTIMUS METROLOGIC SP5500

ENVIO AUTOMATIZADO DE S EMISSOR NFE ADVANCED

Ensino Português no Estrangeiro Nível B2 (13B2AZ) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

(Despacho Normativo nº1-g/2016, de 6 de abril)

Introdução às Bases de Dados

atualização gratuita *para clientes Solutio com contrato de manutenção ativo.

Acordo ortográfico - As Mudanças Principais

Trabalho laboratorial sobre Ritmo: produção

Das Folhas de Cálculo às Bases de Dados Relacionais

Importação de DXF/DWG

OpenOffice.org. tutorial apresentação

TIAGO FREITAS NOVEMBRO DE 2007

Projecto REDIP: a linguagem dos meios de comunicação social em Portugal

CRITÉRIOS DE AVALIAÇÃO

siaconf Relatório Técnico

SAGE RETAIL. Franchising. Sage. Abril 2017

Manual de Importação/Exportação de Arquivos Texto

1. Inserir referências na Biblioteca de Endnote; 2. Criar CUSTOM GROUPS e SMART GROUPS"; 3. Utilizar o FIND FULL TEXT para descarregar PDFs;

Computação e Programação

A colonização de Moçambique e Brasil por Portugal e o reflexo deste fato na língua nacional.

BOAS PRÁTICAS PEDAGÓGICAS. Faculdade de Farmácia da Universidade do Porto. Índice Introdução Provas Escritas... 2

O PAPEL DOS CONTEXTOS FONÉTICOS NA DELIMITAÇÃO DA TONICIDADE DE FALA ATÍPICA

Principais correções efectuadas:

Balcão Guia de Apoio para Registo de Mapas de Quantidade e Autos de Medição

ENTRE NA ERA DE AGILIDADE DOS ESCRITÓRIOS DE CONTABILIDADE

Fundamentos da Programação

AGRUPAMENTO DE ESCOLAS DA MOITA

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

INFORMAÇÃO- Prova de Equivalência à Frequência Disciplina: Português 2017

Correção Ortográfica. Processamento Estatístico da Linguagem Natural. Correção de Erros. Distância Mínima de Edição. Distância Mínima de Edição

EFFE-ON: NOVA BASE DE DADOS ONLINE Correspondência de escrita e fala de 1º Ciclo do EB

Semântica no Reconhecedor Gramatical Linguístico

Relacionar o texto com conhecimentos anteriores. Compreender o essencial dos textos escutados e lidos.

Critérios para transcrição da fala espontânea

Ambientes de Desenvolvimento Avançados (ADAV)

Exportações de cortiça aumentam em 2007

Taxa de elocução, grupo acentual, pausas e fonoestilística: temporalidade na prosa e na poesia com interpretação livre

Acordos de Nível de Atendimento Sistema de Gestão da Qualidade

Português maio de 2017

INFORMAÇÃO-PROVA. Português 9º ano

Este tópico aborda a configuração necessária para numeração e impressão de documentos.

20 Aula Digital. Manual do Utilizador do Aluno. Versão 1.9

RELEASE NOTES

CRITÉRIOS DE AVALIAÇÃO

O SHST PHC permite a gestão e organização dos serviços de Segurança, Higiene e Saúde no Trabalho de qualquer tipo de empresa.

Bioinformática. iphy Sistema de Apoio à filógenética para a análise de supermatrizes. Trabalho realizado por: João Pedro Teixeira

Net Business. Introdução. Procedimentos I - Recolha do ficheiro

3.º Ciclo do Ensino Básico (Decreto-Lei n.º 139/2012, de 5 de julho; Decreto-Lei n.º 3/2008, de 7 de janeiro)

edictor 1.0 beta 010 M a n u a l F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010 Versão 2014 do Manual: Igor Leal

ADENDA AO MANUAL VERSÃO 1.17

COMUNICAÇÃO DO INVENTÁRIO E STOCK SIMPLIFICADO COM POS / REST / DISCO

COMPUTAÇÃO E LINGUÍSTICA: UM APLICATIVO WEB PARA BUSCAS AUTOMÁTICAS NO CORPUS DIGITAL DOVIC

CRITÉRIOS DE AVALIAÇÃO DO CURSO PROFISSIONAL DE GESTÃO E PROGRAMAÇÃO DE SISTEMAS INFORMÁTICOS. 3º Ano (12º Ano)

Ensino Português no Estrangeiro Nível C1 (13C1AA) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Inclusão tecnológica aos discentes do Ensino Fundamental II através do Software R

Fonêmica. CRISTÓFARO SILVA, Thaïs. Fonética e fonologia do português: roteiro de estudos e guia de exercícios. 9. ed. São Paulo: Contexto, 2009.

Release Notes

A distribuição da cotação pelos domínios de referência apresenta-se no quadro seguinte. Distribuição da cotação

Ensino Português no Estrangeiro Nível B2 (13B2AA) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Ensino Português no Estrangeiro Nível C1 (13C1AZ) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Bem-vindo ao tópico sobre saldos iniciais.

O Plugin TQS-Revit 2014 pode ser baixado gratuitamente na TQS Store e é compatível com o AutoDesk Revit 2014.

20 Aula Digital. Manual do Utilizador do Aluno. Versão 1.5

Diferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico

ATIVIDADES ESTRATÉGIAS

II Projeções para a economia portuguesa em 2018

CURSO DE DIREITO. Questão 3. Questão 2

PORTUGUÊS Prova Escrita (90 minutos) + Prova Oral (15 minutos)

DISCIPLINA: PORTUGUÊS CÓDIGO DA PROVA: 61. Ensino Básico: 2.º CICLO ANO DE ESCOLARIDADE: 6.º

AGRUPAMENTO DE ESCOLAS DA MOITA

Ensino Português no Estrangeiro Nível C1 (13C1AE) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Manual de Instruções Medição Gráfica de Desenhos em DWG e JPG Medição de Projetos desde modelos IFC-BIM

Para os exemplos dos cenários A e B serão utilizadas as classes Movie, Actor, Director e Genre.

Os pixels ou pontos podem ser endereçados por dois inteiros, o número horizontal do pixel (dcx) e o número vertical do pixel (dcy).

Contas Nacionais Trimestrais por Sector Institucional

Conservatório de Música Calouste Gulbenkian de Braga INFORMAÇÃO- Prova de Equivalência à Frequência Disciplina: Português 2017

Para: Português NE. Escolas João de Araújo Correia. Objeto da Avaliação. Caracterização da Prova. Prova Final a Nível de Escola abril 2018

Exercícios de Excel com Programação em VBA. Luís Vieira Lobo

Transcrição:

Um método semiautomático para transcrever foneticamente corpora alinhados Maarten Janssen, IULA & Fabíola Santos, ILTEC XXVII Encontro Nacional da APL, FSCH, 26-28 outubro 2012

Estrutura da apresentação Objetivo Enquadramento Ponto de partida Metodologia Metodologia Transcrição fonética Resultados Conclusão

Objetivo Apresentar um método semiautomático de obter uma transcrição fonética larga, a partir da transcrição ortográfica existente de um corpus alinhado e que tem como subproduto um dicionário de pronúncia.

Enquadramento Este método surgiu no decurso do projeto Oral- -Phon que está a decorrer no ILTEC e consiste na criação de fiadas com informação fonética e morfológica para parte da porção transcrita ortograficamente do corpus Corp-Oral. Fazer este trabalho de transcrição fonética manualmente consome muito tempo e portanto foi necessário arranjar métodos que permitissem acelerar o progresso do trabalho.

Ponto de partida

Metodologia 1. A transcrição ortográfica é importada para um ficheiro TextGrid do Praat:

Metodologia 2. A fiada da transcrição é escrita para um ficheiro individual, etiquetada, dividida em palavras e importada de novo:

Metodologia- Transcrição fonética Premissas: corpus transcrito em ficheiro TextGrid; Base de dados ou regras para a transcrição/nada. Neste caso foi usada a BD do léxico OSLIN para o português, com 55 mil palavras já transcritas. Procedimento: A fiada das palavras etiquetadas é exportada isoladamente; Corre-se um script que procura numa base dados a palavra e devolve a sua transcrição fonética, usando a informação de POS para desambiguação, quando necessário; Uma nova fiada é criada com a transcrição vinda da base de dados e as transcrições inferidas não existentes na BD; A fiada é corrigida e exportada para a BD ou uma nova BD é criada no caso de não existir.

Metodologia- Transcrição fonética Esquema do processo File type = "ootextfile" Object class = "IntervalTier" xmin = 0 xmax = 2406.571247165533 intervals: size = 3350 intervals [1]: xmin = 0 xmax = 1198.882669501925 text = "" intervals [2]: xmin = 1198.882669501925 xmax = 1200.0117469670056 text = "boudoir/e " intervals [3]: xmin = 1200.0117469670056 xmax = 1202.1012835717063 text = "" intervals [4]: xmin = 1202.1012835717063 xmax = 1202.3336717443228 text = "casa/nfs" ortografia casa Perl script Transcrição fonética ka.zɐ File type = "ootextfile" Object class = "IntervalTier" xmin = 0 xmax = 2406.571247165533 intervals: size = 3350 intervals [1]: xmin = 0 xmax = 1198.882669501925 text = "" intervals [2]: xmin = 1198.882669501925 xmax = 1200.0117469670056 text =?bu. dɔjr" intervals [3]: xmin = 1200.0117469670056 xmax = 1202.1012835717063 text = "" intervals [4]: xmin = 1202.1012835717063 xmax = 1202.3336717443228 text = ka.zɐ" pai paj

Metodologia- Transcrição fonética Importação da fiada e correção

Metodologia- Transcrição fonética Exportação da fiada corrigida File type = "ootextfile" Object class = "IntervalTier" xmin = 0 xmax = 2406.571247165533 intervals: size = 3350 intervals [1]: xmin = 0 xmax = 1198.882669501925 text = "" intervals [2]: xmin = 1198.882669501925 xmax = 1200.0117469670056 text = bu. dwar" intervals [3]: xmin = 1200.0117469670056 xmax = 1202.1012835717063 text = "" intervals [4]: xmin = 1202.1012835717063 xmax = 1202.3336717443228 text = ka.zɐ" ortografia casa pai boudoir Perl script Transcrição fonética ka.zɐ paj bu. dwar

Resultados A percentagem de palavras do corpus que existem na BD situa-se nos 77%; Os restantes 23% correspondem a palavras geradas automaticamente (marcadas com?); Desses 23%, 70% surgem corretas, enquanto as restantes 30% têm que ser corrigidas ou é necessário selecionar entre produções alternativas (ex.: g[ɐ]nhar e g[a]nhar); A maioria dos erros em palavras geradas relacionam-se com alturas de vogais; Na prática, existe uma poupança de tempo na ordem dos 70%, o que extrapolando para todo o corpus, reduz de aprox. 500 horas para 150 horas o tempo necessário para a realização da transcrição.

Conclusões Processo bastante simples que proporciona poupanças significativas de tempo; Essas poupanças aumentam ao longo da tarefa visto que a base de dados vai sendo aumentada; Outros tipos de informação pode ser acrescentada (ex. lema, etc.); Processo que permite reaproveitar trabalho feito. Mesmo não existindo base de dados inicial, se a tarefa tem que ser realizada, ela pode ser criada e ser reutilizada e melhorada infinitamente no futuro.

Obrigada fabiola.santos@iltec.pt