tica do Texto Escrito e Falado



Documentos relacionados
Organização. Trabalho realizado por: André Palma nº Daniel Jesus nº Fábio Bota nº Stephane Fernandes nº 28591

Organização. Trabalho realizado por: André Palma nº Daniel Jesus nº Fábio Bota nº Stephane Fernandes nº 28591

ANÁLISE DA CTOC. Elsa Costa e Paula Franco Consultoras da Câmara dos Técnicos Oficiais de Contas

LÍNGUA PORTUGUESA. 2º Ano

PROCESSO AC-I-CCENT. 46/2003 CTT/PAYSHOP

o(a) engenheiro(a) Projeto é a essência da engenharia 07/02/ v8 dá vazão

TÉCNICAS DE PROGRAMAÇÃO

A Matemática do ENEM em Bizus

Chaves. Chaves. O modelo relacional implementa dois conhecidos conceitos de chaves, como veremos a seguir:

Conteúdos: Fonemas e letras Encontros vocálicos Encontro consonantal Dígrafo

Divisão Silábica Automática do Texto Escrito e Falado

Documento SGS. PLANO DE TRANSIÇÃO da SGS ICS ISO 9001:2008. PTD v Pág 1 de 6

A Secretária de Estado dos Transportes. Ana Paula Vitorino

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE DEPARTAMENTO DE ENGENHARIA MECÂNICA DESENHO MECÂNICO CORTES. Prof. Márcio Valério de Araújo

Informática II Cap. 3

Instituto Superior Politécnico de VISEU. Escola Superior de Tecnologia

ALP Algoritmos e Programação

SIMULAÇÃO DO MOVIMENTO DE QUEDA DE UM CORPO COM E SEM RESISTÊNCIA DO AR

Sessão 2 UFCD 0804 Algoritmos

IVA. Esclarecimentos sobre o Preenchimento do Modelo 106. e respetivos anexos. Perguntas frequentes:

Técnicas de Computação Paralela Capítulo III Design de Algoritmos Paralelos

Introdução às Bases de Dados

Satisfação dos consumidores: estudo de caso em um supermercado de Bambuí/MG

Pontifícia Universidade Católica de Minas Gerais Bacharelado em Sistemas de Informação Trabalho de Diplomação

Cotagem de dimensões básicas

fonologia fonema som estudo unidade prof.serjãogomes

6. Programação Inteira

IUCN Red List Categories - Version 3.1

PRINCIPAL REGULAMENTAÇÃO EXISTENTE E SUA IMPLEMENTAÇÃO A NÍVEL EUROPEU CAPÍTULO 3

Manual do Gestor da Informação do Sistema

O Treino ANTF. Acção de Actualização para Treinadores de Jovens

Processo de Bolonha. Regime de transição na FCTUC

EXAME NACIONAL DO ENSINO SECUNDÁRIO

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

Qualidade de Software

UML (Unified Modelling Language) Diagrama de Classes

formativa e das atividades de ensino e de aprendizagem nela desenvolvidas;

Norma Interpretativa 2 Uso de Técnicas de Valor Presente para mensurar o Valor de Uso

1) O que é a consciência fonológica?

ASSUNTO: Processo de Auto-avaliação da Adequação do Capital Interno (ICAAP)

DICAS PARA CÁLCULOS MAIS RÁPIDOS ARTIGO 06

Caracterização de Termopares

Elétricos. Prof. Josemar dos Santos

ESTATÍSTICA ORGANIZAÇÃO E REPRESENTAÇÃO DE DADOS. Tabelas. Frequência absoluta. Frequência relativa

6.4 Condutividade Hidráulica Saturada com Temperatura Controlada

Manual do Revisor Oficial de Contas. Projecto de Directriz de Revisão/Auditoria 860

Manual do Comunicador 1.0 (Externo)

As decisões intermédias na jurisprudência constitucional portuguesa

EXERCÍCIO Nº 1 RESOLUÇÃO

Objetivo do trabalho 4

SISTEMAS DE INFORMAÇÃO GERENCIAIS

Sistema Integrado de Bibliotecas da Universidade de Lisboa

4 Sistemas de Equações Lineares

OS SABERES PROFISSIONAIS PARA O USO DE RECURSOS TECNOLÓGICOS NA ESCOLA

O método multicritérios de apoio à decisão

UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS SÓCIO-ECONÔMICAS E HUMANAS DE ANÁPOLIS

Os Estilos de Pesquisa na Computação. TCC Profº Carlos José Maria Olguín

Objetivo. Letras. Análise Linguística? Em que consiste? Estruturas fonológicas da língua portuguesa. Prof a : Dr a. Leda Cecília Szabo

Definição do Conceito. Instalação e Gestão de Redes Informáticas. Gestão e organização da informação

"SISTEMAS DE COTAGEM"

Introdução à Programação B Licenciatura em Engenharia Informática. Enunciado do trabalho prático. Quem quer ser milionário? 20 de Dezembro de 2007

Aula 11 Root Locus LGR (Lugar Geométrico das Raízes) parte I

Projecto de Desenvolvimento de Sistemas de Software

Teste de Software Parte 1. Prof. Jonas Potros

Optimização de um Mundo Virtual

Guia da Taxa de Leitura. Agosto 2014

Prova Escrita de Economia A

4912 Diário da República, 1.ª série N.º de agosto de 2012

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Algoritmos e Estrutura de Dados. Aula 05 Estrutura de Dados: Listas Prof. Tiago A. E. Ferreira

Os Segredos da Produtividade. por Pedro Conceição

NOTA TÉCNICA Nº 005/2010 SRE/ADASA

Programação em papel quadriculado

Notação. Quantidades Económicas de Encomenda. 1.1 Quantidade Económica de Wilson. 1.1 Quantidade Económica de Wilson

Reforma ortográfica.

ESTATÍSTICAS, O ABECEDÁRIO DO FUTURO

TRATAMENTO DAS TRAVESSIAS RODOVIÁRIAS EM ÁREAS URBANAS

O PLANEJAMENTO FINANCEIRO E AS MICRO E PEQUENAS EMPRESAS NO BRASIL 1

Cadernos do CNLF, Vol. XVI, Nº 04, t. 3, pág. 2451

A estrutura de repetição em um algoritmo consiste na execução de um trecho do mesmo levando em consideração certas condições imposta pelo algoritmo.

Catálogo Nacional de Compras Públicas. Manual de Fornecedores

N1Q1 Solução. a) Há várias formas de se cobrir o tabuleiro usando somente peças do tipo A; a figura mostra duas delas.

Papo com a Especialista

DESENHO TÉCNICO. Aula 06. Cotagem em Desenho Técnico

1 COMO ENCAMINHAR UMA PESQUISA 1.1 QUE É PESQUISA

PESQUISA EM INFORMÁTICA -ESTILOS DE PESQUISA EM COMPUTAÇÃO. Prof. Angelo Augusto Frozza, M.Sc.

UNIDADE 6 - PROGRAMAÇÃO MODULAR

Caracterização da Situação dos Fluxos Específicos de Resíduos em 2009 APA

Índice. 1. Metodologia de Alfabetização Aprendizagem da Escrita Aprendizagem da Leitura...6

Facturação Guia do Utilizador

PAINEL DE ADMINISTRADOR

COMISSÃO CIENTÍFICA DO CURSO DE MESTRADO EM ENSINO DE DANÇA ANO LECTIVO DE 2011/2012-1º SEMESTRE RELATÓRIO

Código Civil ª Edição Atualização nº 1 DECRETO-LEI Nº 131/95, DE 6 DE JUNHO [1] 1

Generalização e Especialização Banco de Dados

FICHA DOUTRINÁRIA 16º; 14º; 1º; 3º; 8º; 23º; 30º - 1º; 2º; 5º; 6º; 20º.

Transcrição:

Divisão Silábica Automática tica do Texto Escrito e Falado João Paulo Teixeira, Paulo Gouveia, Diamantino Freitas 1 Instituto Politécnico de Bragança (Portugal) 1 Faculdade de Engenharia da Universidade do Porto (Portugal)

Estrutura da apresentação Motivação Breve Descrição Regras para a Divisão Silábica do Texto Escrito Regras para a Divisão Silábica do Texto Falado Testes e Análise de Resultados Conclusões 2

Motivação realização de estudos prosódicos enquadrados no desenvolvimento de um sintetizador de fala encarando a sílaba, como unidade relevante na determinação dos parâmetros prosódicos necessidade de ter o texto separado em sílabas como estrutura de dados a considerar no bloco prosódico e fonético do sintetizador 3

Descrição o algoritmo proposto realiza automaticamente a separação silábica de um texto em português com aplicação em duas situações distintas: texto escrito texto falado baseia-se no pressuposto de apenas se considerarem os seguintes tipos de sílabas: V, VC, VCC, CV, CVC, CCV e CCVC V - vogal ou ditongo; C - consoante 4

Regras p/ Texto Escrito Após a normalização do texto: procura-se decompor a palavra em sílabas que sejam combinações de letras do tipo: V, VC, VCC, CV, CVC, CCV e CCVC ocorrendo ambiguidade na regra anterior, isso deve-se à existência de duas consoantes entre duas vogais (...VCCV...) três consoantes entre duas vogais (...VCCCV...) 5

Regras p/ Texto Escrito, cont. RESOLUÇÃO do caso (...VCCV...) divisões possíveis: 1. VCC-V 2. VC-CV (ex: al-tas) 3. V-CCV (ex: a-tlas) resolução a 1ª hipótese é excluída uma vez que a divisão silábica nunca pode ocorrer entre uma consoante e uma vogal a 3ª só será escolhida se as duas consoantes constituírem um par de consoantes inseparáveis par de consoantes inseparáveis quando a 1ª delas pertencer ao conjunto {b, p, d, t, g, k, v, f} e a 2ª ao conjunto {l, r} 6

Regras p/ Texto Escrito, cont. ra s RESOLUÇÃO do caso (...VCCCV...) divisões possíveis: 1. V-CCCV ou VCCC-V 2. VC-CCV (ex: ul-tra) 3. VCC-CV (ex: obs-tar) resolução a 1ª hipótese é excluída uma vez que nunca podem ocorrer três consoantes seguidas numa mesma sílaba a 3ª só será escolhida se as primeiras duas consoantes forem inseparáveis, ou então a segunda a letra s quando a letra s precede outra consoante as duas pertencerão a sílabas diferentes 7

Regras p/ Texto Escrito, cont. Identificação de DITONGOS Quando no texto surgem duas vogais seguidas é necessário verificar se formam um ditongo ou um hiato Apenas são considerados ditongos decrescentes (semivogal após vogal) pois só esses são estáveis para a detecção de ditongos, procuram-se ocorrências de uma vogal seguida de uma semivogal ongos crescentes podem ser considerados como hiatos 8

Regras p/ Texto Escrito, cont. Identificação de SEMIVOGAIS uma vogal alfabética será considerada semivogal se for a 2ª de duas vogais seguidas, um i ou u, e diferente da vogal que a preceder (contra ex: ni-ilismo) e não lhe suceder : um r ou l como última letra da palavra (ex: ca-ir) um r ou l como 1ª de duas ou mais consoantes seguidas (ex: ca-irmos) a vogal u (ex: ca-iu) ou uma consoante indicadora de nasalidade (ex: a-inda) ivogal o considera-se ainda como semivogal a letra o quando precedida pela letra a (ex: ao) 9

Regras p/ Texto Falado Ao conjunto de tipo de sílabas inicialmente considerado acrescentam-se mais duas: C e CC resultantes da supressão das vogais em sílabas do tipo: CV, CVC e CCV Não se considera a supressão da vogal em sílabas do tipo CCVC por ser pouco frequente para evitar efeitos secundários procura-se então decompor a palavra em sílabas que sejam combinações de letras do tipo: V, VC, VCC, CV, CVC, CCV, CCVC, C e CC 10

Regras p/ Texto Falado, cont. Considerarmos válidas sílabas sem vogais complica, de sobremaneira, a correcta identificação das sílabas Torna-se, por isso, necessário considerar um conjunto adicional de regras (aqui utiliza-se o código SAMPA): as consoantes {l, r, S, z, Z}, quando seguidas de outra consoante, associam-se à sílaba anterior as consoantes {S, z, Z}, em final de palavra, ligam-se à sílaba anterior quando uma vogal preceder um dos pares de consoantes {bk, bd, bz, bs, bt, km, kn, ks, dz, dm, dk, ds, dv, fn, ft, gd, gm, gn, mn, ps, pn, pt, tm, tn} a separação será entre as consoantes ongos a identificação dos ditongos aparece simplificada, uma vez que, neste caso, as semivogais encontram-se já identificadas 11

Testes e Análise dos Resultados A metodologia seguida baseou-se no princípio da independência dos conjuntos de informação de desenvolvimento e de teste Para teste dos algoritmos, utilizou-se, como conjunto de informação, textos extraídos de publicações periódicas A verificação dos erros realizou-se por comparação do resultado dos algoritmos com o resultado de uma divisão manual dos mesmos textos A taxa de erro foi calculada com o nº de divisões silábicas incorrectas por nº de sílabas divididas, em permilagem 12

Testes e Análise dos Resultados, cont. TEXTO ESCRITO O algoritmo foi testado com um conjunto de 1164 palavras não repetidas, de duas ou mais letras Num total de 3387 sílabas ocorreram apenas 2 erros, correspondendo a uma taxa de 0.6 Embora os 2 erros tenham ocorrido em palavras distintas (cai-remos e reu-ni-ão) representam um mesmo tipo de erro hiato interpretado como ditongo decrescente Os erros não são de solução imediata veja-se o exemplo de Cai-ro e reu-má-ti-co As situações não resolvidas podem ser consideradas numa tabela de excepções 13

Testes e Análise dos Resultados, cont. TEXTO FALADO O algoritmo foi aplicado à sequência de fonemas etiquetados de um sinal de fala de 5mn de duração Num total de 1569 sílabas ocorreram 14 erros, correspondendo a uma taxa de 8.9 Os 14 erros ocorreram em 7 palavras distintas ft- bol, iv-de~-t- me~-t, mnis- te-riw, irs-po~s6-bli- da, i~d-s-tri- al, 6k-z6- s6~w, dmo~s-tr6- s6~w Todas as situações de erro resultam de sílabas em que foi omitida a vogal ficando a consoante dessas sílabas associada a sílabas vizinhas 14

Conclusões A aplicação dos algoritmos conduz a resultados ligeiramente diferentes para os dois casos (texto escrito e texto falado) deve-se à omissão de vogais no texto falado a taxa de erro é para os dois casos bastante baixa Dificuldade de aplicação deste conjunto de regras a palavras estrangeiras Para as aplicações que se pretendem dar aos algoritmos, os objectivos foram seguramente atingidos para estudo prosódico como parte integrante do bloco prosódico de um sintetizador 15