Sistema de Reconhecimento de Palavras Isoladas em Tempo Real

Documentos relacionados
Conceitos básicos População É constutuida por todos os elementos que são passíveis de ser analisados de tamanho N

Análise de Componentes Principais

Vitamina A Vitamina B Vitamina C Alimento Alimento Alimento

Como a x > 0 para todo x real, segue que: a x = y y 1. Sendo f -1 a inversa de f, tem-se que f -1 (y)= log a ( y y 1 )

RECEPTOR GPS POR SOFTWARE. Luis F. Villalba Cisneros (PG)

Capítulo V INTEGRAIS DE SUPERFÍCIE

1ª Lista de Exercícios - GABARITO

[ η. lim. RECAPITULANDO: Soluções diluídas de polímeros. Equação de Mark-Houwink-Sakurada: a = 0.5 (solvente θ )

Funções de Transferência

Técnicas de Linearização de Sistemas

Exemplo pág. 28. Aplicação da distribuição normal. Normal reduzida Z=( )/200= 1,5. Φ( z)=1 Φ(z)

CÁLCULO DA INCERTEZA DE MEDIÇÃO NA CALIBRAÇÃO DE MEDIDAS MATERIALIZADAS DE VOLUME PELO MÉTODO GRAVIMÉTRICO

Cap 6. Substituição de Equipamentos

Contabilometria. Números-Índices

2 - Definições: (a) Corrente Primária Nominal (I pn ) (b) Corrente Secundária Nominal (I sn ) (c) Relação de Transformação Nominal (k n )

CAP. 5 DETERMINANTES 5.1 DEFINIÇÕES DETERMINANTE DE ORDEM 2 EXEMPLO DETERMINANTE DE ORDEM 3

FUNÇÃO EXPONENCIAL. a 1 para todo a não nulo. a. a. a a. a 1. Chamamos de Função Exponencial a função definida por: f( x) 3 x. f( x) f 2.

Geometria Analítica e Álgebra Linear

Análise de Eficiência Energética em Sistemas Industriais de Ventilação

Análise tributária das formas de remuneração dos sócios: uma abordagem com cálculo atuarial

Escola de Engenharia de Lorena - USP Cinética Química Capítulo 03 Métodos Cinéticos

SEQÜÊNCIAS E SÉRIES 1. CÁLCULO SOMATÓRIO. variando de 0 a 50. Esta soma pode ser representada abreviadamente por:

Soluções E-Procurement

Análise Discriminante: classificação com 2 populações

MODELAGEM DE TRANSFORMADORES DE DISTRIBUIÇÃO PARA APLICAÇÃO EM ALGORITMOS DE FLUXO DE POTÊNCIA TRIFÁSICO

Matemática Fascículo 03 Álvaro Zimmermann Aranha

Lista de Exercícios 01 Algoritmos Sequência Simples

Calculando volumes. Para pensar. Para construir um cubo cuja aresta seja o dobro de a, de quantos cubos de aresta a precisaremos?

Transformadas de Laplace

NOVAS ABORDAGENS PARA O PROBLEMA DE ROTEIRIZAÇÃO E ESTOQUES COM MÚLTIPLOS VEÍCULOS

INSTITUTO DE APLICAÇÃO FERNANDO RODRIGUES DA SILVEIRA LISTA 2 RADICIAÇÃO

Máquinas Eléctricas I Transformadores Transformadores

Questionário sobre o Ensino de Leitura

Folhas de Cálculo. O EXCEL como Folha de Cálculo

PROVA DE MATEMÁTICA - TURMAS DO

4.2. Veio Cilíndrico de Secção Circular

Perguntas Freqüentes - Bandeiras

VELOCIDADE DE PROPAGAÇÃO DOS DISTÚRBIOS NA ATMOSFERA HIDROSTÁTICA. Vladimir Kadychnikov Darci Pegoraro Casarin Universidade Federal de Pelotas

MODELAGEM DA DISTRIBUIÇÃO DE TEMPERATURA NO PROJETO DE UM EQUIPAMENTO PARA CORTE A QUENTE DE BARRAS DE AÇO

4 - ANÁLISE DE SÉRIES TEMPORAIS

FORMULAÇÃO DE POLÍTICA DE DISTRIBUIÇÃO COM LOTE ECONÔMICO DE ENTREGA EM PROBLEMAS DE ROTEIRIZAÇÃO COM ESTOQUE GERENCIADO PELO FORNECEDOR

RESOLUÇÃO DA PROVA DE MATEMÁTICA UNICAMP-FASE RESOLUÇÃO: PROFA. MARIA ANTÔNIA C. GOUVEIA

a.cosx 1) (ITA) Se P(x) é um polinômio do 5º grau que satisfaz as condições 1 = P(1) = P(2) = P(3) = P(4) = P(5) e P(6) = 0, então temos:

Semelhança e áreas 1,5

2 Avaliação da segurança dinâmica de sistemas de energia elétrica: Teoria

INCLUSO. consulte RELÓGIO DIGITAL. Vinhedo Tel: 55 (19) Daniela - (19)

onde a notação "x 3" indica x tende a 3 e "lim" significa o limite de. Generalizando, se f é uma função e a é um número, entende-se a notação

Ac esse o sit e w w w. d e ca c lu b.c om.br / es t u dos e f a ç a s u a insc riçã o cl ica nd o e m Pa r t i c i p e :

6.1: Séries de potências e a sua convergência

EQUAÇÃO DO 2 GRAU ( ) Matemática. a, b são os coeficientes respectivamente de e x ; c é o termo independente. Exemplo: x é uma equação do 2 grau = 9

Regras. Resumo do Jogo Resumo do Jogo. Conteúdo. Conteúdo. Objetivo FRENTE do Jogo

ÍNDICE DE TERMOS: MOTOR DEDICADO, PADRONIZAÇÃO;

Relações em triângulos retângulos semelhantes

NOTAS DE AULA - ÁLGEBRA LINEAR MATRIZES, DETERMINANTES E SISTEMAS DE EQUAÇOES LINEARES

APOSTILA DE ESTATÍSTICA

RIO DE JANEIRO, RJ BRASIL MARÇO DE 2009

Professor Mauricio Lutz FUNÇÃO EXPONENCIAL

{ 2 3k > 0. Num triângulo, a medida de um lado é diminuída de 15% e a medida da altura relativa a esse lado é aumentada

PROCESSOS ESTOCÁSTICOS E TEORIA DE FILAS

Professores Edu Vicente e Marcos José Colégio Pedro II Departamento de Matemática Potências e Radicais

Módulo I MOTORES DE BUSCA NA INTERNET

1 a. Lista de Exercícios

RESOLUÇÃO Matemática APLICADA FGV Administração

CÓDIGO DE BARRAS. Eduardo Marques Dias Universidade Católica de Brasília Departamento de Matemática Orientador: Prof. Sinval Braga de Freitas

Resolução A primeira frase pode ser equacionada como: QUESTÃO 3. Resolução QUESTÃO 2 QUESTÃO 4. Resolução

Algoritmos de Interseções de Curvas de Bézier com Uma Aplicação à Localização de Raízes de Equações

Aula 8: Gramáticas Livres de Contexto

9. MODELAGEM DE CONVERSORES: MODELO DA CHAVE PWM

PROGRESSÃO GEOMÉTRICA

CAP. 6 - ANÁLISE DE INVESTIMENTOS EM SITUAÇÃO DE RISCO

UERJ CTC IME Departamento de Informática e Ciência da Computação 2 Cálculo Numérico Professora Mariluci Ferreira Portes

2 Programação Matemática Princípios Básicos

Código PE-ACSH-2. Título:

Medição da Resistividade do Solo

Alternativa A. Alternativa B. igual a: (A) an. n 1. (B) an. (C) an. (D) an. n 1. (E) an. n 1. Alternativa E

MÉTODO COMPUTACIONAL AUTOMÁTICO TICO PARA PRÉ-PROCESSAMENTO PROCESSAMENTO DE IMAGENS RADIOGRÁFICAS. M. Z. Nascimento, A. F. Frère e L. A.

1. A cessan do o S I G P R H

ELECTRÓNICA DE POTÊNCIA. CA Aplicações: Inversor monofásico em meia ponte. Inversor monofásico em ponte. Conversores CC-CA de frequência variável

Estratégico. III Seminário de Planejamento. Rio de Janeiro, 23 a 25 de fevereiro de 2011

Marília Brasil Xavier REITORA. Prof. Rubens Vilhena Fonseca COORDENADOR GERAL DOS CURSOS DE MATEMÁTICA

9 = 3 porque 3 2 = = 4 porque 4 2 = = - 5 porque (- 5) 3 = = 3 porque 3 4 = = 2 porque 2 5 = = - 2

Módulo II. Sistemas Internos de Informação. Redes e serviços de comunicação Sistema interno de informação da ESTV. Módulo II

FACULDADES UNIFICADAS DA. Curso de Direito Escritório de Assistência Jurídica Registro OAB 6614 DA F UNDAÇ Ã O EDUCACIONAL DE B ARRETOS

Elementos de Análise Financeira Fluxos de Caixa Séries Uniformes de Pagamento

MATRIZES E DETERMINANTES

Em atendimento à solicitação de V.Sa., apresentamos, na seqüência, os resultados do estudo referenciado.


MÃE. M esmo q u e o s eu f ilho j á t enha sido regi strad o procu r e o cartóri o d e R egi stro Civil de

SUMÁRIO GOVERNO DO ESTADO DO CEARÁ. Cid Ferreira Gomes Governador. 1. Introdução Domingos Gomes de Aguiar Filho Vice Governador

Matemática Aplicada. A Mostre que a combinação dos movimentos N e S, em qualquer ordem, é nula, isto é,

MA12 - Unidade 4 Somatórios e Binômio de Newton Semana de 11/04 a 17/04

Projeto de rede na cadeia de suprimentos


Quadro de conteúdos. Eu Gosto Integrado 1 o ano. Lição 1 As crianças e os lugares onde vivem

Estudo das relações entre peso e altura de estudantes de estatística através da análise de regressão simples.

Algoritmos de Busca de Palavras em Texto

INSTABILIDADE DE CHAPAS INSTABILIDADE DE CHAPAS MÉTODO DAS LARGURAS EFETIVAS APLICAÇÃO A PERFIS FORMADOS A FRIO APLICAÇÃO A PERFIS SOLDADOS

MODELAGEM MATEMÁTICA E O CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM O MÉTODO DOS MÍNIMOS QUADRADOS

Apostila De Matemática GEOMETRIA: REVISÃO DO ENSINO FUNDAMENTAL, PRISMAS E PIRÂMIDES

White Paper. Boas Práticas de Marketing

Transcrição:

UIVERSIDADE FEDERAL DO RIO DE JAEIRO CETRO DE TECOLOGIA ESCOLA DE EGEHARIA DEPARTAMETO DE ELETRÔICA Ssem de Recohecmeo de Plvrs Isolds em Temo Rel Auor: Oredor: Co-Oredor: Exmdor: Mrcos Slzr Frcsco DRE: 0943048 Prof. Ferdo Gl V Resede Juor Ph. D. Prof. Sérgo Lm eo Ph. D. Prof. Márco oguer de Souz D. Sc. DEL Dezembro de 999

À mh mord Delle de Pv P. Loes que semre soube me or e cevr.

Agrdecmeos Aos meus s Muro e Agel elo oo que êm me ddo em ods s es d mh vd. Aos rofessores Gl e Sérgo el oreção recebd o desevolvmeo dese rblho. Aos rofessores Márco oguer e Crlos Es que gelmee cederm os ssems de recohecmeo de fl crdos or seus luos.

Resumo Ese rblho cosse em um ssem de recohecmeo de lvrs solds em emo rel que fo desevolvdo r um lform Wdows 9x. Ele recohece os dígos de 0 9 ms ode-se fclmee exd-lo r ser ulzdo com ms lvrs. O ssem como um odo é formdo or cco blocos rcs: qusção do som; deecção de íco e fm de lvr; exrção de coefcees; quzção veorl; HMM. Eses blocos são descros o logo dese relóro. Há dverss vráves evolvds o rocesso de recohecmeo ms exse ouc formção sobre escolh de seus vlores. ese rblho ls-se fluêc dess vráves o desemeho do ssem: mho do codeboo úmero de esdos os modelos HMM úmero de coefcees exrídos mho d suerosção mho d el. A melhor x de cero obd fo de 9875% r um bse de ddos com um úco locuor e de 8625% r um bse deedee do locuor. v

Plvrs-chves: Recohecmeo de Voz Temo Rel HMM Aálse Cesrl Aálse LPC v

Ídce:. Irodução... 2. Ssem de recohecmeo...2 2.. Deecção de exremos...4 2.2. Exrção de râmeros...6 2.2.. Aálse LPC...6 2.2.2. Aálse Cesrl...9 2.2.3. Aálse em Temo Rel... 2.3. Quzção veorl...3 2.4. Hdde Mrov Models HMM...5 2.3.. Recohecmeo...7 2.3.2. Tremeo Bum-Welch...20 2.3.3. Imlemeção do remeo Bum-Welch...22 3. Resuldos...23 2.3.. Tremeo...23 2.3.2. Recohecmeo deedee do locuor...25 2.3.3. Recohecmeo deedee do locuor...30 4. Coclusões...35 5. Bblogrf...37 6. Aêdce...39 v

. Irodução Com os rádos vços ecológcos ds úlms décds os comudores á são um reldde vd dár ds essos. Com sso surge ecessdde de erfces ere o homem e máqu de form ms smles ermdo o uso de comudores or um úmero mor de essos. A lgugem orl é form de comucção ms rád e fácl que o ser humo dsõe. Iso mov o esudo de ssems de recohecmeo e síese de voz. Iúmeros ssems de recohecmeo á form desevolvdos sedo grde mor r lígu gles. o eo exsem oucos em oruguês. ese rblho é mlemedo um ssem r o recohecmeo de lvrs solds em emo rel o qul são ulzdos os modelos escoddos de Mrov Hdde Mrov Models - HMM. O vocbuláro de lvrs é reduzdo es os dígos de zero é ove or sso form usdos modelos reresedo lvrs ers um modelo r cd dígo. A rcl movção r esse roeo é fdde de lcções r um ssem de recohecmeo de voz como exemlo em elefoes com dscgem or voz [8] edores de exo [9-0] ou lcdo erção com robôs []. O obevo rcl do rblho é ober um bbloec de rogrms r o desevolvmeo de ssems de recohecmeo de fl em emo rel lsdo s vráves evolvds e ecordo os melhores vlores r els. Em [2-8] são vsos rblhos borddo o recohecmeo de dígos. Eses ssems obêm xs de cero de 90% 95% 96.25% 96.9% 95% 9% 97.77% resecvmee. Todv em [6] e [8] form esdos com r os mesmos locuores que relzrm o remeo. Em [2] e [3] os resuldos são r um bse deedee do locuor. Verfcdo s bses de ddos observ-se que es em [5] fo ulzd um bse ml coedo 600 fles. O ssem desevolvdo ese rblho é um lcção r um lform Wdows 9x. A erfce com o usuáro fo fe em Delh 3. As fuções que rocessm o sl de voz e fzem o recohecmeo esão um DLL e form desevolvds o Borld C++ 5. Um descrção ms delhd desss fuções ecor-se o Aêdce. Ese rblho eve colborção de dos rofessores: o rofessor Márco oguer de Souz [7] e o rofessor Crlos Es [4]. O rmero ossuí um ssem de recohecmeo de dígos soldos em emo rel. O segudo ossuí um ssem de recohecmeo de lvrs solds feo em Mlb. o róxmo cíulo r-se de um breve descrção d eor evolvd o rmeo d fl. o Cíulo 3 são resedos os eses relzdos e um álse dos seus resuldos. As coclusões são mosrds o Cíulo 4.

2. Ssem de recohecmeo O fucomeo básco desse ssem de recohecmeo ode ser resumdo o dgrm em blocos vso Fgur 2.. O ssem é cosuído or quro es: deecção de exremos; exrção de râmeros; quzção veorl; clssfcção do sl. O bloco de deecção de exremos relz qusção dos ddos rvés d lc de som e decsão de íco e fm de lvr recore de lvr. O obevo é descobrr o recho do sl de fl ode exse um lvr e eregá-lo o bloco de exrção de râmeros. Pr relzr exrção de râmeros é fe um segmeção do sl de fl em equeos rechos d ordem de 20 ms. Isso é more r que eses ossm ser lsdos como ss escoáros e r ossblr o rocessmeo em emo rel. Em cd um deses segmeos é fe álse LPC ler redcve codg e oseror coversão de coefcees LPC r coefcees cesrs. o fm desse bloco cd el do sl é formd or râmeros cesrs del cesrs eerg e del eerg. Deos efeu-se um quzção veorl ode cd couo de râmeros é quzdo elo seu ídce o codeboo e seqüêc de ídces é ulzd o clssfcdor HMM r que se oss verfcr qul lvr fo d. Deecção de Exremos Cruzmeos or zero Eerg Sl de Voz Plc de som Exrção de râmeros Pré-êfse Aálse LPC: Auocorrelção Levso-Durb LPC / Cesrl Del Cesrl Eerg Del eerg Coefcees or el: cesrs del cesrs eerg del eerg esclr or el. Ídce do Codeboo Quzção Veorl Dsâc eucld Clssfcção Modelos HMM Dígos: 0-9 "Lef-Rgh" Modelo com mor robbldde rerese o dígo recohecdo. Fgur 2. : Dgrm em blocos do ssem de recohecmeo mlemedo ese rblho. 2

Pr que o ssem fucoe é ecessáro que sem redos: o codeboo e os modelos HMM. Fgur 2.2 ode ser vso um dgrm em blocos r se efeur o remeo. Os blocos de deecção de exremos e de exrção de râmeros são os mesmos ulzdos es orém gor eles rocessm um couo grde de rquvos de som couo de remeo o vés de es um. Os blocos segues relzm o remeo do codeboo e dos modelos HMM. O rmero é feo rr do couo de remeo ulzdo o lgormo LBG Lde-Buzo-Gry com cerod slg. O segudo ós odo ese couo er sdo quzdo. Exrção de râmeros Codeboo gerdo. Deecção de Exremos Cruzmeos or zero Eerg Sl de Voz Plc de som Pré-êfse Aálse LPC: Auocorrelção Levso-Durb LPC / Cesrl Del Cesrl Eerg Del eerg Coefcees or el: cesrs del cesrs eerg del eerg Tremeo do Codeboo LBG com ceród slg Dsâc eucld esclr or el. Ídce do Codeboo Modelos redos r cd dígo. Quzção Veorl Dsâc eucld Tremeo dos modelos HMM Bum-Welch Dígos: 0-9 "Lef-Rgh" Fgur 2.2 : Dgrm em blocos de remeo do ssem mlemedo. 3

2.. Deecção de exremos Ao se roucr um lvr é ecessáro descobrr os ses de íco e de érmo del. Com o bloco de deecção de exremos cosderm-se somee s formções relvs à lvr fld. As mosrs erores e oserores do sl de voz ode só hv ruído de fudo são desrezds. A reseç do bloco de deecção ev que o ruído de fudo se cosemee rocessdo como se fosse um sl de fl. Além de ser um rocessmeo desecessáro oder gerr resuldos deseáves o recohecmeo. Mesmo um equeo erro deecção dos exremos á é sufcee r fer sgfcvmee x de cero globl do ssem [2]. O lgormo ulzdo o recore se bse em cr equeos ervlos de sl de voz e rvés dos cálculos de eerg e d x de cruzmeos or zero esses ervlos defcr o íco e o fl d lvr. A eerg de um segmeo do sl de fl s com mosrs ode ser clculdo el segue equção []: E s 0 2 2. A x de cruzmeos or zero é o úmero de vezes que um seqüêc mud de sl. El é defd el equção []: sg{ s } sg{ s } Z 0 2 ode + s 0 sg{ s } s < 0 2.2 Os exremos de bo re ds lvrs exsees são deecdos rvés d eerg ms exsem lvrs com rechos ão-vozedos rclmee frcvos que ossuem um mlude de eerg bem róxm do ruído de fudo. Como eses rechos o esecro se cocer s ls freqüêcs x de cruzmeo or zero cosum reser vlores ms los do que r o ruído de fudo. Des form us-se es medd r uxlr deecção ms recs dos exremos do sl de fl. 4

Algormo: Ese ssem fuco eddo coumee r que lc de som grve rechos de 00 ms. A reseç de um lvr é defcd qudo esdde do sl dero desse bloco ulrss um lmr L. A rr dese oo verfc-se rechos erores de sl em blocos de 25 ms e efeu-se o cálculo d x de cruzmeos or zero e d eerg comrdo com seus resecvos lmres Lz Le é ecorr o oo de íco del. Ao mesmo emo é fe grvção de um segudo de som obedo um veor. Percorre-se esse veor de rás r free em blocos de 25ms ecordo o fm d lvr rvés d x de cruzmeos or zero e d eerg e comrdo com os mesmos lmres. Fgur 2.3 rece um exemlo r lvr "see". Ese lgormo fo desevolvdo elo luo Els sob oreção do rofessor Márco [7]. Aesr de exsrem dversos lgormos de deecção de exremos ese fo escolhdo el fcldde de mlemeção or relzr qusção de ddos em emo rel e or er resolvdo roblems de mlemeção. Com sso ode-se dr mor êfse mlemeção s es de exrção de râmeros quzção veorl e clssfcção HMM. Ese méodo ossu lgums defcêcs. Ele é frágl em relção ruídos de fudo e o lme de segudo obrg o usuáro roucr o máxmo um lvr or segudo. Ouro roblem relvo e de deecção é um "soro" devdo o esvzmeo dos ulmões. Isso é muo comum com lvrs ermds com o foem /o/. Há mbém um clque que coece ós fl d lvr. Esse clque é devdo o fechmeo dos lábos ós o roucmeo d lvr. Amlude 0.5 0.4 0.3 0.2 0. 0-0. -0.2-0.3-0.4-0.5 0 0.2 0.4 0.6 0.8 Temo seg Fgure 2.3 : Exemlo de deecção d lvr "see". O rcedo fo rcedo logo e lh coíu corresodem o recore feo com os lmres L Lz e Le resecvmee. 5

2.2. Exrção de râmeros A rr de um sl de voz são ecordos os râmeros de cd el do sl de voz. Esses râmeros são: eerg d el; o del eerg d el; coefcees cesrs d el; e del cesrs d el; um ol de 2 + 2 râmeros. Os râmeros exrídos or ese bloco reresem s mosrs do sl com um úmero meor de coefcees. Se or exemlo usrmos um freqüêc de mosrgem de 025 KHz e um mho de el de 20 ms cd segmeo er 220 mosrs. Ms se for fe exrção de râmeros odemos er meos que 40 coefcees or segmeo. Com um meor qudde de vlores dmuse o rblho comucol e glz-se o rocessmeo s es oserores. Além dsso os râmeros exrídos são um bo rereseção d formção cúsc. 2.2.. Aálse LPC A dé básc d álse LPC cosse em um mosr do sl de fl ser modeld or um combção ler de sus mosrs ssds dd or: s s + s 2 +... + s 2.3 2 ode os coefcees 2... são reclculdos r cd el do sl os em equeos rechos o sl ode ser ssumdo como sedo escoáro. A equção eror ode ser coverd em um guldde cludo um ermo de excção do sl Gu ode u é excção ormlzd e G é o seu gho. s Gu + s 2.4 Isso os lev um fução de rsferêc do ro vocl como é mosrdo bxo: S z G H z 2.5 U z z 6

Os coefcees 2... são os râmeros LPC do sl. Eles são clculdos cosderdo-se um flro de redção ler como mosrdo em 2.6 e o seu erro de redção é ddo or 2.7. s s ~ 2.6 s s s s e ~ 2.7 Os coefcees são escolhdos fm de mmzr um fução do erro de redção. Pr sso dero de um el de sl de mho o erro médo qudráco defdo em 2.8 deve ser dervdo em fução de cd coefcee e guldo zero. 2 0 2 0 : l s s e E MSE 2.8 2... 0 E l 2.9 ode: l é o úmero de segmeos. Obedo: 2 s s s s... 0 0 2.0 Es equção ode ser reescr usdo defção de covrâc dd or: 0 l s s ϕ 2. e eão: 2... 0 l l ϕ ϕ 2.2 Ese ssem de equções é resolvdo de form mrcl em 2.3. Es mrz ode ser decomos em dus ours um rgulr sueror e our rgulr feror. Deos dsso ulz-se o méodo d rero subsução [3]. Ese é chmdo de méodo d covrâc [-3]. ode : 0 30 20 0 3 2. 3 2 3 33 32 3 2 23 22 2 3 2 l l l l l l l l l l l l l l l l l l ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ Μ Μ Λ Μ Ο Μ Μ Μ Λ Λ Λ 2.3 7

Com um smles subsução de vráves 2. ode ser reescr como : + + l s s s s ϕ 2.4 Como o sl é rocessdo em els de durção f 0 - os lmes do somóro odem ser muddos. 0 0 r s s s s l + + ϕ 2.5 Percebe-se que covrâc ode ser subsuíd el uocorrelção do sl. ese cso equção 2.2 or-se: 2... r r 2.6 Ese é chmdo de méodo d uocorrelção e fo ulzdo ese rblho. O ssem de equções ode ser vso su form mrcl em 2.7. Como mrz é do o Toelz [-3] o melhor méodo r resolvê-l é ulzr o lgormo de Levso-Durb [-3] ddo segur: 3 2 3 2. 0 3 2 3 0 2 2 0 2 0 r r r r r r r r r r r r r r r r r r r r Μ Μ Λ Μ Ο Μ Μ Μ Λ Λ Λ 2.7 Algormo de Levso-Durb : coefces LPC Resuldo E r r E E Ierção 0 0 r E cs Vlores L < : / : ; : 2 0 0 α α α α α α 2.8 8

2.2.2. Aálse Cesrl O sl de voz é formdo or um excção e covoluíd com resos o mulso do modelo do ro vocl θ. o eo em lcções de recohecmeo de voz é deseável será-ls. A dé d álse cesrl é levr o sl r um domío ode sso se ossível. s e * θ 2.9 O domío cesrl ode ser dvddo em dos: cesrum rel rel cesrum - RC e cesrum comlexo comlex cesrum - CC. A dfereç ere os dos cosse em o cso do RC descrr formção sobre fse do sl ou se odo sl é de fse mím. Já o cesrum comlexo os coefcees cesrs ossuem re rel e mgár medo formção sobre fse do sl. ese rblho bordremos es o RC. Se for lcdo o oerdor logrímco o esecro de Fourer do sl o sl obdo será um combção ler ere excção e resos o mulso mosrds erormee. Ao lcrmos Trsformd Ivers de Fourer levremos o sl um ovo domío que ode ser chmdo de domío cesrl e à ov "freqüêc" de qüefrêc. esse ovo domío excção se cocer em regões de l qüefrêc e resos o mulso em regões de bx qüefrêc sedo ossível será-ls. As equções que descrevem esse rocesso odem ser vss bxo ode c e corresode à excção e c θ corresode o modelo do ro vocl. s e * θ S w E w. Θ w Alcdo logrmo : log E w. Θ w log E w + log Θ w { log E w. Θ w } I { log E w } + I { log Θ w } ce I { log E w } + cθ c I { log Θ w } cs I 2.20 c c s e θ Um vez esdo o domío cesrl bs serr o comoee corresodee o modelo do ro vocl os es é formção que eress em um ssem de recohecmeo de voz. Isso é feo rvés de um rocesso de flrgem chmdo lfrgem. ese rocesso mêm-se es s bxs qüefrêcs. Pr sso ulz-se um el lfro como mosrd Fgur 2.4. O mho d el deede de quos coefcees cesrs se dese. 9

A el ulzd lfrgem esá descr bxo: L π + s... 0 L l 2 L 0 qulquer ouro ode : L mho d el de lferg 2.2 6 5 4 3 2 0 0 2 3 4 5 6 7 8 9 0 Fgur 2.4: Jel ulzd lfrgem com L0. O dgrm em blocos mosr odo o rocesso r obeção do cesrum rel coforme fgur bxo. c s ;m S DTFT log. IDTFT Lfro c θ ;m wm- Fgur 2.5: Dgrm em blocos r se ober o cesrum rel. Tmbém é ossível ober os coefcees cesrs rr dos coefcees LPC. Isso cosum ser ms rádo comucolmee do que o rocesso descro eror e or sso fo ulzdo ese rblho. As equções ulzds r ess coversão são [-2]: c c c 0 m m l G m m + m m c m c m m m m 2.22 0

2.2.3. Aálse em emo rel es seção descreve-se meodolog ulzd o cálculo dos coefcees cesrs del cesrs eerg e del eerg.. Pré êfse: É um flro FIR de rmer ordem que eu s comoees de bx freqüêc do sl. Iso reve sbldde umérc[] devdo à mrz de uocorrelção ml codcod. E mbém mmz o efeo d crcerísc dos lábos com o seu zero ero de z. A relção ere síd e erd do flro é dd or: ~ 0 Tmho do sl s[ ] s[ ] µ s[ ] 09 µ.0 2.23 Fgur 2.6 : Mgude do flro de ré-êfse com µ095. 2. Segmeção: O sl é rocessdo segmeo segmeo ode cd um ossu um mho e dsâc do íco de um segmeo o seu subseqüee overl ou suerosção é O. Tmbém é ulzd el de Hmmg r dmur s descouddes o íco e o fm d el. ~ s s w 2π ode : w 0.54-0.46cos - 0 2.24

0.9 0.8 0.7 0.6 mlude 0.5 0.4 0.3 0.2 0. 0 0 50 00 50 mosrs Fgur 2.7 : Jel de Hmmg com 50. O Fgur 2.8 : Suerosção eres s els 3. Auocorrelção: Clculm-se + coefcees de uocorrelção r cd el do sl. O ermo r0 corresode à eerg d el e mbém é um dos râmeros exrídos. r m 0 m s s + m 0 m 2.25 4. Levso-Durb: Os coefcees LPC de cd el são clculdos ulzdo o lgormo de Levso-Durb que fo descro seção 2.2.. 5. Coversão r coefcees cesrs: Pr cd el do sl clculm-se coefcees cesrs rr dos coefcees LPC. O rmero coefcee cesrl fo desrezdo os é muo correlcodo com eerg [2]. Como o úmero de coefcees cesrs é o mesmo que o de coefcees LPC o cálculo se resume equção mosrd bxo [2]: c m m m + cm m m 2.26 2

6. Lfrgem: Os cesrs de cd bloco são ormlzdos elo seo coforme bxo. Isso se deve à sesbldde dos coefcees de bx ordem e de l ordem o esecro do sl e o ruído resecvmee [2]. w m mπ + s 2 m 2.27 7. Del cesrl e del eerg: É um medd d vrção dos coefcees cesrs ere segmeos de sl dcees [2]. O úmero de els ulzds o cálculo é 2K+ e µ é um cose de ormlzção. ese rblho form usdos µ /6 e K 3 [2]. O del eerg é clculdo d mesm form ulzdo formção de eerg de els dcees. cm c m µ K K c m + 2.28 2.3. Quzção veorl Os râmeros exrídos e eror odem ssumr um fdde de vlores ossíves. Porém como veremos Seção 2.4 são ulzdos modelos HMM dscreos. Eão ecess-se fzer um quzção deses vlores. es seção é borddo um méodo de quzção chmdo de quzção veorl. ese méodo ós exrção de râmeros de cd el do sl é fe um comrção ere esses râmeros e um ls de râmeros chmd de codeboo. Ess comrção vs ecorr o ídce d melhor rereseção desses râmeros dero do codeboo e ulz-se esse ídce r rereser el do sl em quesão. Esse rocesso de busc o codeboo mbém é chmdo de quzção veorl. A medd de dsâc ulzd r relzr es comrção é dsâc eucld: 2 ds xˆ yˆ x y 2.29 ode: x e y são veores de dmesão. Ms es de se ulzr quzção veorl um codeboo deve ser gerdo rr de um ls de râmeros couo de remeo. Es ls deve ser grde o sufcee de modo rereser com um erro equeo odo o uverso de ss ossíves. Cd em dess ls é um couo de râmeros que ode ser cosderdo como um veor de um esço veorl de odos os couos de râmeros ossíves. Obvmee r se ober o melhor codeboo r um deermd lcção de recohecmeo de voz ele deve ser gerdo 3

ulzdo-se como couo de remeo mosrs de ods s lvrs com que o ssem rá rblhr. LBG com cerod slg [2] [6] Iclzção: O rmero codeboo é formdo es or um úco veor. Ese é méd ceróde de odo o couo de remeo. Slg: Dobr-se o mho do codeboo dvddo cd ceróde y em dos ouros. Isso é feo de cordo com regr: y + y +ε; y - y -ε. Ode vr de é o mho ul do codeboo e ε é o râmero de slg cmee ε é escolhdo fx 00 ε 005 [2]. Ierção:. Dvdem-se odos os veores do couo de remeo em gruos ulzdo o codeboo ul. 2. Clculm-se os ceródes de odos os gruos e ulz-se o codeboo com eses ceródes. 3. Se vrção fução cuso e/ou o seu mho forem equeos re. Cso coráro vole o rmero sso. A fução cuso ulzd ese rblho é um méd de ods s dsâcs ere cd veor e seu resecvo ceróde como vso bxo. A cd erção esse vlor dmu ou se mém cose [6]. D M M L L l ds x l y ode: M úmero de rções. L úmero de veores d rção. x l veor úmero l d rção. y ceróde d rção. 2.30 Codção de érmo: Aós o érmo ds erções deve-se verfcr se o mho do codeboo gu o desedo. Cso ão eh sdo lcçdo relz-se um ovo slg e recomeçm-se s erções. 4

2.4. Modelos escoddos de Mrov Cosdere um rocesso leóro que ode ser descro em qulquer se de emo como um couo de esdos dsos S S 2... S. Em ses de emo regulrmee esçdos ese ssem mud de esdo ou ão de cordo com um couo de robblddes ssocds às rsções ere esdos. Pr um rocesso mrovo de ª ordem robbldde do esdo ul o se d seqüêc ser o esdo S deede es do esdo S resee o se medmee eror - ou se: [ q S q S q S ] P[ q S q S ] P 2.3 2... Cosderdo que es robbldde é deedee do emo ou se se mém cose r qulquer se ode-se defr mrz de rsção de esdos d form: { } { P[ q S q S ]} A 2.32 x x es mrz cd lh e colu corresodem robbldde de rsção do esdo S r o esdo S. Sbedo que em cd se ocorre um rsção de esdos o róxmo esdo ode ser o mesmo esdo verfc-se que mrz de rsção de esdos ssfz s segues codções: 0 2.33 Se es mrz de esdos for ulzd r modelr um rocesso esocásco cd esdo corresoderá um síd observável do ssem. Ese rocesso esísco é chmdo de modelo observável de Mrov. Porém ese modelo é muo resro r ser lcdo roblems de recohecmeo de voz. ess lcções o sl de voz ode ser reresedo como dos rocessos esocáscos deedees ere s. Um rocesso é vrção ds roreddes leórs do sl o logo do emo e o ouro rocesso é relvo os râmeros que modelm o sl de voz em um deermdo se. Eses râmeros odem ser cosderdos como um vrável leór e odem ser observdos fscmee. Um modelo cz de descrever ese o de ssem é chmdo de modelo oculo de Mrov hdde Mrov models - HMM [] [2] [5]. 5

Pr melhor exlcr ese o de modelo suõe-se o segue ceáro: exse um sl com um cor e o ldo oculo el cor um esso esá relzdo um exermeo de lçmeo de ddos. A úc formção forecd é o resuldo do lçmeo do ddo. ese cso o rocesso observável é o resuldo do lçmeo do ddo e o rocesso oculo é escolh leór do ddo que será ulzdo o lçmeo. Eão ger-se um seqüêc observd e dese-se cosrur um modelo HMM que exlque. A rmer re do roblem é decdr quos esdos serão ulzdos o modelo um vez que ão se sbe o úmero de ddos exsees. Assume-se eão que exsem ddos e cd ddo ossudo M fces. Deodo-se odos os símbolos ossíves como sedo : { o o... 2 om O } 2.34 Pode-se defr mrz de gerção de símbolos : B { b } { P[ o em q S ]} 2.35 x M x M M es mrz cd lh corresode um veor com robbldde de se observr cd um dos M símbolos em um deermdo esdo. Sbedo dsso verfc-se que es mrz ssfz s segues codções: b 0 M b 2.36 Tmbém é ecessáro sber robbldde de um deermd seqüêc cr em um deermdo esdo S. Iso é defdo como : [ q S ] π P 2.37 Um vez escolhdos os vlores de e M um modelo HMM ode ser esecfcdo rvés ds rês mrzes de robblddes A B e π. Por coveêc o logo dese rblho será usd oção λabπ r desgr o couo comleo de râmeros do modelo. 6

2.4.. Recohecmeo Em um ssem de recohecmeo exse um modelo r cd formção que se dese recohecer or exemlo modelos de lvrs solds. Dd um seqüêc de observções O roveees de um lvr descohecd clcul-se robbldde de cd modelo gerr observção P[λ O]. Obvmee o modelo que reser mor robbldde será escolhdo como o modelo corresodee à lvr descohecd. De cordo com o eorem de Byes : P P [ λ O ] P[ O] P[ O λ ] P[ λ ] P [ ] [ O λ ] P[ λ ] λ O P[ O] 2.38 Pr um dd observção robbldde de su ocorrêc é cose e deede do modelo. E robbldde P[λ] é de esrmos observr um dd lvr. Se for dmdo que ods s lvrs êm gul robbldde de esrem sedo observds so ode ser váldo r um vocbuláro equeo como o usdo ese rblho eão es robbldde é cose. ess codções mxmzr P[λ O] é o mesmo que mxmzr P[O λ]. Eão bs mxmzr robbldde de gerr um deermd seqüêc de observções ddo um modelo. Há várs mers de se ober es robbldde es lgus deles serão descros ese rblho. Procedmeo Forwrd : Cosdere robbldde α defd como : P[ o o... o q S λ α ]. 2.39 2 Es é robbldde de hver um seqüêc rcl de observções é o se ermdo o esdo S ddo um modelo. Eão robbldde P[O λ] ode ser clculd como se segue : Iclzção : α π b o Ierção : α + Flzção : P O α b o T [ λ ] αt T úmero de observções + 2.40 7

Procedmeo Bcwrd : Cosdere robbldde β defd como : [ λ... 2 T S q o o P o + + β ]. 2.4 Es é robbldde de hver um seqüêc rcl de observções desde o se + é o fl T esdo o esdo S o se ddo um modelo. Eão robbldde P[O λ] ode ser clculd como se segue: [ ] s úmero de observçõe T o b λ P O Flzção 2 T T o b Ierção Cso coráro 0 váldo é um esdo cl Se S Iclzção T T + + + + :... : : β π β β β β 2.42 Procedmeo de Verb : Os rocedmeos erores clculm robbldde P[O λ] r ods s seqüêcs de esdos ossíves. ese méodo clcul-se robbldde rr d seqüêc de esdos ms rovável. Pr sso recs-se defr vrável : [ λ 2 2 2 q q q o o o S q q q P q mx Λ Λ Λ δ ]. 2.43 Es é mor robbldde clculd dere odos os cmhos é o se gerdo s rmers observções e ermdo o esdo S. Ese lgormo mbém reor melhor seqüêc de esdos r um dd observção. Isso é úl r vlr o úmero de esdos escolhdos r o modelo. [ ] [ ] [ ] [ ] + + 2 T T q q Bcrcg Seqüêc de esdos mx rg q mx P Flzção T 2 mx rg o b mx Ierção 0 o b Iclzção T T T : : : : Λ ψ δ δ δ ψ δ δ ψ π δ 2.44 8

Procedmeo de Verb lervo: Alcdo-se o oerdor logrímco o lgormo de Verb mosrdo seção eror ode ser mlemedo sem ecessdde de relzr mullcções. Des form emos : [ ] [ ] [ ] [ ] [ ] + + + + + + 2 T T q q Bcrcg Seqüêc de esdos mx rg q mx P Flzção T 2 mx rg o b mx log Ierção 0 o b log Iclzção T log o b log o b log Prerocessmeo T T T : : : : : Λ ψ δ δ δ ψ δ δ δ ψ π δ δ π π 2.45 Comrdo-se os cusos comucos O[ ] dos quro méodos bel bxo ercebe-se clrmee que o úlmo méodo é o ms efcee os ão ecess de mullcções. Por sso oou-se or ulzr ese méodo ese rblho. Tbel 2. : Comrção dos cusos comucos ere os méodos de recohecmeo [2]. Adções Mullcções Comrções Forwrd O[ 2 M] O[ 2 M] - Bcwrd O[ 2 M] O[ 2 M] - Verb - O[ 2 M] O[ 2 M] Verb lervo O[ 2 M] - O[ 2 M] 9

2.4.2. Tremeo Bum-Welch O obevo do remeo é ober mrz de robblddes de rsção de esdos A robbldde de cr em um deermdo esdo π e r cd esdo um veor de robblddes de emssão de cd observção B. O méodo ulzdo é smles ms é ecessáro que sem defds lgums robblddes r eedê-lo comlemee. Esss defções são mosrds bxo : Ddo um modelo e um seqüêc de observções robbldde de exsr um rsção do esdo S r o esdo S o se é: [ ] [ ] [ ] [ ] λ P O O b ξ λ P O λ O S q S P q λ O S q S P q ξ + + + + β α 2.46 Probbldde do modelo se ecorr o se o esdo S dd um observção e um modelo. < T O P T ξ T T λ ] [ α ν ν 2.47 ou [ ] T λ P O β α ν 2.47b Probbldde do modelo se ecorr o esdo S o se e roduzr síd v. v O v O 0 ν δ 2.48 Com ess defções é ossível reesmr s mrzes de robbldde do modelo HMM. Ms rác r relzr um ssem de recohecmeo é ecessáro rer o modelo r um grde úmero de mosrs. Suodo que emos H mosrs des clsse um couo de fórmuls r reesmr s robblddes são mosrds s equções 2.49. 20

úmero eserdo de rsções do esdo S r o esdo S úmero eserdo de rsções rr do esdo S r um esdo qulquer H T H T ξ α b O+ β+ h h 2.49 H T T ξ α b O β H h h + + úmero eserdo de vezes de esr o esdo S e observr o símbolo o b úmero eserdo de vezes de esr o esdo S b H T H T α δ h h H T H h ν β Sedo O v T h α β 2.49b π úmero eserdo de vezes de se começr o esdo S ν 2.49c ode: H é o úmero de mosrs des clsse. Algormo de Bum-Welch Iclzção: As mrzes A B e π de cd modelo são clzds com vlores leóros. Obedecedo s resrções 2.33 e 2.36. Ierção:. Ulz-se s equções 2.49 r reesmr os modelos. Cd modelo é reesmdo ós serem lcds ods s H mosrs de su resecv clsse. 2. Se vrção em A B e π for meor que um lmr ré esbelecdo r-se erção. Reeção: Reee-se os ssos r város modelos cs dferees r se ecorr o máxmo locl ms fvorável []. 2

2.4.3. Imlemeção do remeo Bum-Welch A robbldde de cr em um deermdo esdo π ão é clculd os remos ulzr ese rblho um modelo HMM do o lef-rgh [245]. Fgur 2.8 é mosrdo um exemlo com 4 esdos. ese o de modelo o esdo cl é semre o ms esquerd e só são ermds rsções r esdos dre do eror. Como mecodo erormee o sl de voz ode ser reresedo como dos rocessos esocáscos deedees ere s. Um rocesso é vrção ds roreddes leórs do sl o logo do emo e o ouro rocesso é relvo os râmeros que modelm o sl de voz em um deermdo se. Eses râmeros odem ser cosderdos como um vrável leór e odem ser observdos fscmee. A mrz de rsção model o rmero rocesso e o modelo do o lef-rgh exlor o fo de o emo ser es crescee. 3 24 2 3 4 2 23 34 22 33 44 Fgur 2.8 : Exemlo de um modelo HMM do o lef-rgh 22

3. Resuldos Exsem dversos fores evolvdos um rocesso de recohecmeo de fl. Porém lerur ão há um méodo gerl r escolh deles. ese cíulo são mosrdos resuldos vrdo-se lgus deses râmeros e é fe um álse de su fluêc. Pr eses eses form ulzdos os rogrms desevolvdos Aêdce. O mbee de rblho fo um comudor Peum 00MHz com Wdows 98 e com 40 Mb de memór RAM. Devdo o comrlhmeo de recursos o Wdows os emos de rocessmeo mosrdos vrm lgermee ±5%. Com ulzção de comudores ms rádos eses emos devem ser bem meores. Como mecodo seção 2.4.2 deve-se reer o remeo dos modelos r ecorr o melhor máxmo locl. Reeu-se cco vezes cd um dos eses. ess reeções x méd de cero vrou roxmdmee de % r um bse de ddos deedee do locuor e de 3% r um bse deedee. 3.. Tremeo Aes do ssem ser ulzdo o codeboo e os modelos HMM devem ser obdos. es seção são vsos os emos de rocessmeo desse remeo. Pr sso ulz-se um bse de ddos de 200 rquvos de som. Ess bse é mesm que será usd róxm seção bse de ddos deedee do locuor. Prmermee exrção de râmeros é fe em dversos rquvos de som obedo-se o couo de remeo. Esses râmeros são: eerg; o del eerg; coefcees cesrs; e del cesrs; um ol de 2 + 2. O emo de rocessmeo vr coforme rece s bels 3. 3.b e 3.c. Ele ume de cordo com o úmero de râmeros e suerosção ere s els. Porém ele é mor r um mho de el equeo os esse cso o úmero ol de els rocessds será mor. Os róxmos ssos são: gerr o codeboo e ulzá-lo r quzr o couo de remeo. Esse couo quzdo será usdo oserormee o remeo dos modelos HMM. As bels 3.2 3.3 e 3.4 mosrm os emos gsos em fução do úmero de râmeros suerosção e mho ds els resecvmee. Aós sso é feo o remeo dos modelos HMM. esse rocesso o emo deede do mho do codeboo do úmero de esdos e de como form clzdos os modelos HMM. Sedo ms fluecdo or ese úlmo for. A clzção dos modelos é fe rvés de úmeros leóros que fluecm o úmero de erções do lgormo de Bum-Welch. Por sso o emo 23

gso ode ssumr um ml fx de vlores. Desde 7 segudos é 25 segudos. Comrdo os emos de odos os rocessos ercebe-se que o couo de remeo e os modelos HMM odem ser gerdos em um emo equeo. Porém r mor de lcções deve-se rer o codeboo revmee. Tbel 3. : Temo gso exrção de râmeros do couo de remeo com 200 rquvos de som em fução: do úmero de râmeros cesrs com el de 20 ms e suerosção de 66%; b d suerosção ere s els com el de 20 ms e 4 râmeros cesrs; c do mho ds els com suerosção de 66% e 4 râmeros cesrs. 8 9 0 2 3 4 5 6 TSeg 892 963 083 43 25 298 42 505 609 0% 33% 50% 66% TSeg 53 779 994 42 b 5ms 8ms 20ms 22ms 25ms TSeg 524 506 42 40 33 c Tbel 3.2 : Temo gso gerção do codeboo em fução do úmero de râmeros exrídos. O mho d el usdo fo de 20 ms e suerosção é de 66%. O emo esá em muos : segudos : ceésmos de segudo. Tmho do codeboo 32 64 28 256 52 024 8 :46:28 3:39:65 8:56:29 2:5:40 6:30:80 24::90 9 :3:89 5:34:22 2:32:76 - - - 0 3:03:45 6:03:38 3:35:0 - - - 3:3:95 5:24:00 9:54:74 - - - 2 4:26:66 8:28:77 4:57:48 - - - 3 3:27:68 8:8:83 4:06:3 - - - 4 4:4:63 0:06:98 7:24:4 - - - 5 5:00:22 :37:48 6:53:5 - - - 6 5:25:0 2:53:46 22:49:29 - - - 24

Tbel 3.3 : Temo gso gerção do codeboo em fução d suerosção ere s els. O mho d el é de 20 ms e o úmero de râmeros é 4+4+2. O emo esá em muos : segudos : ceésmos de segudo. Suerosção Tmho do codeboo 32 64 28 0% 0:5:9 2:53:2 3:2:58 33% 2:09:3 2:57:90 6:3:70 50% 2:56:40 4:56:60 0:4:40 66% 4:4:63 0:06:98 7:24:4 Tbel 3.4 : Temo gso gerção do codeboo em fução do mho ds els. A suerosção é de 66% e o úmero de râmeros é 4+4+2. O emo esá em muos : segudos : ceésmos de segudo. Jel Tmho do codeboo 32 64 28 5ms 5:52:9 24:5:4 30:46:87 8ms 4:25:79 8:09:82 6:24:6 20ms 4:4:63 0:06:98 7:24:4 22ms 3:5:34 9:22:60 6:56:89 25ms 2:33:24 6:2:46 :02:24 3.2. Recohecmeo deedee do erlocuor Form ulzds 20 mosrs de cd dígo r relzr o remeo do codeboo e dos modelos HMM. E 40 mosrs de cd dígo r odos os eses relzdos. Tods ess mosrs form grvds com um freqüêc de 025 KHz e ossuem um mho ere 80 ms e 800 ms. Como els form grvds or um úco erlocuor o ssem é cosderdo como deedee do erlocuor. Os resuldos recem s róxms bels. Em cd ese é lerd um ds vráves e s dems são mds coses. A Tbel 3.5 mosr x de cero em fução do mho do codeboo medo s dems vráves evolvds coses. Tbel 3.6 observ-se ouro ese o qul se vr o úmero de esdos. s bels 3.7 3.8 e 3.9 são mosrdos resuldos em fução do úmero de coefcees cesrs mho d suerosção e d el resecvmee. 25

Tods s bels são relvs às 400 mosrs de ese. Como mor dos eses com o couo ulzdo o remeo obeve 00% de cero colocou-se um mrcção do o es queles com x de cero meor. Ouro for muo more ser cosderdo é deecção de exremos. Os ss que ossuím um erro vsível deecção form "recordos mulmee". Ese recore fo feo rvés d vsulzção d form de od e d udção de cd sl. Em odos os eses rece o emo gso o recohecmeo de ods s 40 mosrs de cd dígo um ol de 400 mosrs. Percebeu-se que o mho do codeboo e o mho d suerosção são os fores que ms fem o emo de rocessmeo. E mbém r 52 e 024 ceródes o emo médo gso r recohecer um dígo é de 80 ms e 330 ms resecvmee. Esse emo é d mesm ordem que o mho ds lvrs os lvr de meor mho ossu 220 ms. Vle lembrr que fo ulzdo um comudor Peum 00Mz com 40Mb de RAM. Se forem usdos comudores de úlm gerção o emo de rocessmeo será muo meor grdo ssm resos em emo rel do ssem. Pr es bse de ddos melhor x de cero o recohecmeo fo de 9875% e os melhores resuldos obdos r os vlores são mosrdos bxo: Tmho d el: de 8 ms 22 ms Suerosção: 66% e 50% úmero de râmeros: 2 4 Tmho do codeboo: 28 úmero de esdos: 3 e 4 Os mhos 28 e 256 r o codeboo reserm resuldos equvlees do oo de vs esísco ms o emo gso o rocessmeo r 28 é bem feror or sso fo escolhdo. Pr 7 ou 8 esdos os modelos HMM verfcou-se que dere ods s seqüêcs de esdos ossíves lgus esdos ão ossuím ocorrêcs. Isso mosr que o úmero de esdos deve ser meor que 7. A Tbel 3.0 mosr dígos recohecdos em fução dos dígos resedos. Percebe-se que o mor roblem o recohecmeo é r os dígos "rês" "ses" e "see". Devdo o soque do locuor regão fl desses dígos é muo recd. Felzmee o erro esses dígos fo muo equeo r o ess bse de ddos deedee do locuor. 26

Tbel 3.5 : Porceges de cero o recohecmeo em fução do mho do Codeboo. Tm. Cb 32 64 28 256 52 024 0 975 975 00 975 925 95 85 875 85 875 925 95 2 975 00 00 00 95 95 3 975 95 00 95 95 90 4 90 725 975 95 95 975 5 00 00 00 00 00 00 6 925 925 95 925 95 90 7 875 90 95 00 925 00 8 00 975 00 00 975 00 9 775 00 95 925 85 925 TSeg 73 209 28 422 722 32 Méd 925 9325 9675 96 94 955 Aálse do Tmho do Codeboo: Freq.:.025Hz Jel: 20 ms Suerosção: 66% Pré-êfse: 095 úm. Pr.: 8+8+2 úm. Esdos: 4 Observções: 00% de cero esdo com o couo de remeo exceo r: 95% Tbel 3.6 : Porceges de cero o recohecmeo em fução do úmero de esdos. úm. Es. 3 4 5 6 7 * 8 * 0 975 00 975 00 975 00 90 85 825 775 925 85 2 00 00 975 00 00 00 3 95 00 975 925 95 95 4 95 975 975 95 95 85 5 00 00 00 00 00 00 6 95 95 925 975 95 925 7 925 95 95 925 925 975 8 00 00 00 00 00 00 9 975 95 90 95 925 00 T Seg 276 28 287 295 303 32 Méd 9625 9675 95 95 96 955 Aálse do úmero de Esdos: Freq.:.025Hz Jel: 20 ms Suerosção: 66% Pré-êfse: 095 úm. Pr.: 8+8+2 Tm. Cb: 28 Observções: * Freqüeemee ão há ocorrêc de lgus esdos. 00% de cero esdo com o couo de remeo exceo r: 95% 27

Tbel 3.7 : Porceges de cero o recohecmeo em fução do úmero de coefcees cesrs. Aálse do úmero de Prâmeros ++2: Freq.:.025Hz Suerosção: 66% Tm. Cb: 28 Jel: 20ms Pré-êfse: 095 úm. Esdos: 4. 8 9 0 2 3 4 5 6 0 00 95 975 975 00 00 00 00 00 85 875 95 90 00 00 00 00 00 2 00 975 975 975 00 975 00 00 00 3 00 00 95 00 95 95 00 975 975 4 975 90 00 00 00 975 00 975 00 5 00 00 00 00 00 00 00 00 00 6 95 975 90 875 95 95 925 90 90 7 95 90 925 90 00 00 975 925 90 8 00 00 00 00 975 00 00 00 00 9 95 95 975 95 95 975 975 00 00 T Seg 28 307 332 356 377 404 43 456 479 Méd 9675 9525 965 9575 9825 9825 9875 9775 9775 Tbel 3.8 : Porceges de cero o recohecmeo em fução do mho d suerosção. Suerosção 66% 50% 33% 0% 0 00 00 975 00 00 00 975 975 2 00 975 975 00 3 00 00 975 925 4 00 00 975 975 5 00 00 00 00 6 925 975 925 825 7 975 975 925 90 8 00 95 00 00 9 975 975 00 00 TemoSeg 43 305 239 62 Méd 9875 985 9725 96 Aálse do Tmho d Suerosção ds Jels: Freq.:.025Hz Jel: 20 ms Pré-êfse: 095 úm. Pr.: 4+4+2 Tm. Cb: 28 úm. Esdos: 4 Observções: 00% de cero esdo com o couo de remeo exceo r: 95% 28

Tbel 3.9 : Porceges de cero o recohecmeo em fução do mho ds els. Tm. Jels 5ms 8ms 20ms 22ms 25ms 0 00 00 00 00 00 95 00 00 00 00 2 975 00 00 975 975 3 00 975 00 925 975 4 975 00 00 00 00 5 00 00 00 00 00 6 925 925 925 975 875 7 875 95 975 00 95 8 975 975 00 975 00 9 00 00 975 00 00 TemoSeg 552 483 43 409 37 Méd 9675 9825 9875 985 9775 Aálse do Tmho ds Jels: Freq.:.025Hz Suerosção: 66% Pré-êfse: 095 úm. Pr.: 4+4+2 Tm. Cb: 28 úm. Esdos: 4 Tbel 3.0 : Tbel de cofusão r melhor x de cero ecord o ese. Melhores resuldos: Freq.:.025Hz Pré-êfse: 095 Tm. Cb: 28 Jel: 20 ms úm. Pr.: 4+4+2 úm. Esdos: 4 Suerosção: 66% Dígo resedo Dígo recohecdo cero médo de 9875% 0 2 3 4 5 6 7 8 9 Méd 0 40 00 40 00 2 40 00 3 40 00 4 40 00 5 40 00 6 2 37 925 7 39 975 8 40 00 9 39 975 29

3.3. Recohecmeo deedee do erlocuor A bse de ddos ulzd ossu 5 mosrs de cd dígo r 7 fles dferees 3 homes e 4 mulheres. um ol de 850 rquvos de som. Es bse fo cedd elo rofessor Márco [7]. El fo dvdd em rês edços:. Treo: 3 mosrs de cd dígo com 9 fles dferees 7 homes e 2 mulheres. um ol de 270 rquvos de som. 2. Tese : 2 mosrs de cd dígo com os mesmos fles. um ol de 80 rquvos de som. 3. Tese 2: 5 mosrs de cd dígo com 8 fles dferees 6 homes e 2 mulheres. um ol de 400 rquvos de som. Tods ess mosrs form grvds com um freqüêc de 025KHz. O remeo do codeboo e dos modelos HMM form feos com re de reo. Em cd ese é lerd um ds vráves e s dems são mds coses. A Tbel 3.0 mosr x de cero em fução do mho do codeboo medo s dems vráves evolvds coses. Tbel 3. observ-se ouro ese o qul se vr o úmero de esdos. s bels 3.2 e 3.3 são mosrdos resuldos em fução do úmero de coefcees cesrs e do mho d suerosção ere s els resecvmee. Assm como Seção 3.2 os ss com erro deecção form "recordos mulmee". Ese recore fo feo rvés d vsulzção d form de od e d udção de cd sl. Os rês mhos r o codeboo reserm resuldos equvlees do oo de vs esísco ms o emo gso o recohecmeo e o remeo cresce "geomercmee" com o úmero de ceródes. Eão oou-se or ulzr os róxmos eses o vlor de 256. Tbel 3. observ-se que x de cero e o emo de rocessmeo são rcmee coses. Porém r 6 esdos os modelos HMM verfcou-se que dere ods s seqüêcs de esdos ossíves lgus esdos ossuím oucs ou ehum ocorrêc. Eão os róxmos eses oou-se or 5 esdos. Em relção Tbel 3.2 um umeo de 2 coefcees roorco um umeo de cerc de 0% o emo de rocessmeo. To r bse de reo quo r bse de ese x de cero fo mesm. Porém o melhor resuldo obdo r bse ese 2 fo de 8 ms o resuldo fo bem róxmo r 6. Alsdo suerosção ere s els x de cero méd com bse ese 2 é melhor qudo dmu-se suerosção. Ereo r bse ese ocorre o coráro o melhor resuldo é r 66% de suerosção. Quo mor suerosção mor é o emo de rocessmeo. Alsdo esse emo e x de cero verfcou-se o melhor resuldo r 0%. As Tbels 3.5 e 3.5b mosrm dígos recohecdos em fução dos dígos resedos. Assm como o cso deedee do locuor ercebe-se que 30

os mores roblems o recohecmeo são observdos r os dígos "dos" "rês" "ses" e "see". Devdo o soque d mor re dos locuores regão fl desses dígos é muo recd Ouro roblem é em relção o dígo "um" ser cofuddo com o dígo "cco". Um sugesão r resolver esse roblem é ulzr um ós-rocessmeo. Usdo or exemlo x de cruzmeo or zero regão cl dos dígos odem-se ser serdos o "cco" do "um" "dos" e "rês" do "ses" e "see" os ess x é mor o íco dos dígos "cco" "ses" e "see". E o fo de hver um us es do foem // ode udr defcr o dígo 7. Esse ós-rocessmeo ser úl ms um oseror exsão do vocbuláro do ssem se orr ms comlcd. 3

Tbel 3. : Porceges de cero o recohecmeo em fução do mho do Codeboo. Aálse do Tmho do Codeboo: Freq.:.025Hz Suerosção: 66% úm. Pr.: 4+4+2 Jel: 20ms Pré-êfse: 095 úm. Esdos: 4 Tm. 28 256 52 Bse Treo Tes Tes2 Treo Tes Tes2 Treo Tes Tes2 0 00 00 775 00 00 925 00 9444 95 00 6666 275 00 8889 40 00 00 475 2 00 00 675 00 00 775 00 00 60 3 00 00 875 00 8333 65 00 8333 625 4 00 00 90 00 00 00 00 00 95 5 00 00 00 00 00 975 00 00 90 6 963 8889 825 00 7778 525 00 00 70 7 00 00 775 00 00 90 00 00 85 8 00 9444 90 00 00 90 00 00 95 9 963 8333 725 00 9444 775 00 00 70 TSeg 45 287 704 684 435 044 6 74 80 Méd 9926 9333 7725 00 9444 7825 00 9778 77 Tbel 3.2 : Porceges de cero o recohecmeo em fução do úmero de esdos. Os resuldos r 4 esdos odem ser vsos s colus com mho de codeboo 256 Tbel 3.. Aálse do úmero de Esdos: Freq.:.025Hz Suerosção: 66% úm. Pr.: 4+4+2 Jel: 20ms Pré-êfse: 095 Tm. Cb: 256 úm. 3 5 6 Bse Treo Tes Tes2 Treo Tes Tes2 Treo Tes Tes2 0 00 9444 90 00 00 80 00 00 875 00 8889 325 00 00 375 00 8889 35 2 00 00 70 00 00 725 00 00 60 3 963 8333 625 8889 7778 625 963 8889 70 4 00 00 00 00 00 00 00 00 00 5 00 00 00 00 00 00 00 00 00 6 963 9444 775 00 8889 725 00 8333 80 7 00 00 85 00 00 90 00 00 90 8 00 00 90 00 00 90 00 00 90 9 00 00 775 00 00 825 00 00 75 TSeg 676 429 03 69 44 059 70 446 06 Méd 9926 96 785 9889 9667 7875 9962 96 7875 32

Tbel 3.3 : Porceges de cero o recohecmeo em fução do úmero de coefcees cesrs. Os resuldos r 4 odem ser vsos s colus com mho de codeboo 256 Tbel 3.. Aálse do úmero de Prâmeros ++2: Freq.:.025Hz Suerosção: 66% Tm. Cb: 256 Jel: 20ms Pré-êfse: 095 úm. Esdos: 5. 6 8 20 Bse Treo Tes Tes2 Treo Tes Tes2 Treo Tes Tes2 0 00 00 925 00 9444 90 00 00 95 00 9444 375 00 8889 45 00 00 50 2 00 00 80 00 00 725 00 00 65 3 00 9444 775 00 8889 70 926 7222 725 4 00 00 00 00 00 00 00 00 925 5 00 00 975 00 00 975 00 00 925 6 963 8889 75 963 00 85 00 00 65 7 00 00 775 00 00 875 00 00 80 8 00 00 90 00 00 00 00 00 00 9 00 00 875 00 00 875 00 00 85 T Seg 767 487 68 859 545 308 934 59 47 Méd 9962 9778 85 9962 9722 835 9926 9722 7975 Tbel 3.4 : Porceges de cero o recohecmeo em fução do mho d suerosção. Os resuldos r suerosção de 66% odem ser vsos s colus com 8 Tbel 3.3. Aálse do Tmho d Suerosção ds Jels: Freq.:.025Hz Pré-êfse: 095 úm. Pr.: 8+8+2 Jel: 20ms Tm. Cb: 256 úm. Esdos: 5 0% 33% 50% Bse Treo Tes Tes2 Treo Tes Tes2 Treo Tes Tes2 0 00 00 90 00 9444 90 00 00 925 00 8333 60 00 8889 60 00 00 575 2 00 00 85 00 00 65 00 00 55 3 00 8889 80 00 9444 625 00 7778 575 4 00 00 00 00 00 00 00 00 925 5 00 00 00 00 00 00 00 00 975 6 963 8333 65 00 8889 85 00 8333 775 7 00 00 925 00 00 87 00 00 875 8 00 00 95 00 00 975 00 00 00 9 00 9444 95 00 00 975 00 9444 85 TSeg 304 94 463 465 293 708 599 38 93 Méd 9962 95 8625 00 9667 845 00 9556 8025 33

Tbel 3.5 : Tbel de cofusão r melhor x de cero ecord o ese. r bse ese. b r bse ese 2. Melhores resuldos: Freq.:.025Hz Pré-êfse: 095 Tm. Cb: 28 Jel: 20 ms úm. Pr.: 4+4+2 úm. Esdos: 4 Suerosção: 66% Dígo resedo Dígo resedo Dígo recohecdo cero médo de 95% 0 2 3 4 5 6 7 8 9 Méd 0 8 00 5 8333 2 8 00 3 6 8889 4 8 00 5 8 00 6 5 8333 7 8 00 8 8 00 9 7 9444 Dígo recohecdo cero médo de 8625% 0 2 3 4 5 6 7 8 9 Méd 0 36 4 90 24 2 2 60 2 34 85 3 32 2 3 2 80 4 40 00 5 40 00 6 3 3 26 7 65 7 2 37 925 8 2 38 95 9 2 38 95 b 34

3.4. Aálse d deecção de exremos Todos os eses erores form feos com bses de ddos sem ehum erro deecção dos exremos ou se os dígos com erro deecção form recordos mulmee. ess seção recem os eses relzdos com um bse de ddos record mulmee TrM TesM e com um bse de ddos com recore uomáco TrA TesA. A bse com recore mul fo mesm que fo ulzd Seção 3.2. As bses TrM e TrA são formds or 20 mosrs de cd dígo e s bses TesM e TesA são formds or ours 40 mosrs de cd dígo. A Tbel 3.6 mosr o erro o recore uomáco. Percebe-se clrmee que ms d mede ds mosrs verm um erro o recore do fm. Exsem dos roblems rcs que cusrm esse erro deecção. O rmero é um clque que coece ós o fl d lvr. Esse clque é devdo o fechmeo dos lábos ós o roucmeo d lvr. O segudo roblem é um "soro" devdo o esvzmeo dos ulmões. Tbel 3.6 : Mosr o úmero de dígos com recore errdo o íco e o fm d lvr. O úmero de sos ol usdos esse ese é 200. Iíco Fm Bos < 00 ms < 00 ms < 300 ms > 300 ms Tol 0 2 4 4 4 2 8 2 3 0 4 6 2 0 5 3 2 0 0 3 2 6 5 2 8 4 3 4 5 0 8 5 4 6 4 6 0 3 4 2 9 7 2 5 7 8 2 4 9 4 4 9 2 2 7 0 0 Tol 6 3 49 24 04 90 A Tbel 3.7 mosr x de cero qudo o ssem é redo com s bses TrA e TrM. Assm como mosrdo Seção 3.2 qudo remos com TrM e esmos com TesM x de cero é de 9875%. Porém qudo fo esdo com TesA x de cero cu r 935%. Verfcou-se que qudo form usds bse TrA o reo e bse TesA o ese o cero cu r 9675%. 35

Tbel 3.7 : Resuldos com s bses com recore uomácotra TesA e multrm TesM. Os râmeros ulzdos esse ese são F025KHz Pe095 J20ms S66% 4+4+2 T. Cb28 E4. Treo com: TrA TrM Tese com: TrA TrM TesA TesM TrM TrA TesM TesA 0 00 00 00 00 00 00 00 875 00 00 00 00 00 85 00 90 2 00 00 95 975 00 00 00 90 3 00 00 975 00 00 00 00 875 4 00 00 00 00 00 00 00 00 5 00 00 00 00 00 00 00 00 6 00 95 875 825 00 00 925 85 7 00 00 90 875 00 00 975 00 8 00 95 00 975 00 00 00 00 9 00 00 975 00 00 00 975 95 Méd 00 99 9675 965 00 985 9875 935 36

4. Coclusões ese rblho ulzou-se um freqüêc de mosrgem de 025 KHz e um for de ré-êfse µ de 095. Os melhores resuldos ecordos com s dus bses de ddos ulzds esse rblho odem ser vsos bel bxo. Locuor Deedee Ideedee Tmho d el 8ms 22 ms 20ms Suerosção 66% e 50% 0% úmero de râmeros 2 4 8 Tmho do codeboo 28 e 256 256 úmero de esdos: 3 e 4 34 e 5 Tx de cero com bse de reo 00% 9962% Tx de cero com bse de ese 9875% 95% Tx de cero com bse de ese 2-8625% Temo de rocessmeo or dígo 08ms 5ms Tbel 4. : Melhores resuldos Com o ssem crdo e com os resuldos obdos odemos chegr às segues coclusões: Se o ssem for esdo com um mcrofoe dferee do ulzdo o remeo x de cero se reduz bse. A cção do ruído de fudo deve ser fe com o mcrofoe colocdo s codções em que ele será ulzdo. O rcl roblem d e de deecção de íco e fm de lvr e que cus o erro de deecção é um clque que coece ós o fl d lvr. Esse clque é devdo o fechmeo dos lábos ós o roucmeo d lvr. Ouro roblem relvo à e de deecção é um "soro" devdo o esvzmeo dos ulmões. Isso é muo comum com lvrs ermds com o foem /o/. Esse roblem reduz x de cero o recohecmeo. Percebeu-se que o emo gso o rocessmeo é muo fedo elo mho do codeboo e elo mho d suerosção. Ms verfcou-se que em ehum dos csos esse emo mede relzção de um ssem em emo rel. A rcl cus de erros o recohecmeo ese rblho é devdo o ssem mus vezes cofudr os dígos "dos" "rês" "ses" "see" e "um". Um solução r esse roblem fo sugerd Seção 3.3. Exse um fdde de ossblddes r s dverss vráves lsds esse rblho. Ms com ud dos sofwres crdos ese rblho os luos 37

de recohecmeo de voz oderão relzr rblhos ess áre com rdez e efcêc. Ese rblho ode ser melhordo com mlemeção d exrção de râmeros mel-cesrl com o umeo do vocbuláro de recohecmeo com escolh de modelos r subuddes ds lvrs e rmeo de fl coíu. Como drecomeo fuuro ode-se rblhr els melhors desse ssem e cosrução de lcções ulzdo os lgormos qu resedos. 38

5. Bblogrf [] DELLER J. R. ; PROAKIS J. G. & HASE J. H. Dscree-Tme Processg of Seech Sgls. McMll. 993. [2] RABIER L. R. & JUAG B. H. Fudmels of Seech Recogo. Prece Hll. 993. [3] KUTWAK A. B. Aálse d Codfcção LPC r Ss de Fl. Proeo Fl de Curso. UFRJ. 999. [4] ESPAI C. Comucção Pessol. Uversdde do Poro. Porugl. [5] RABIER L. R. A Tuorl o Hdde Mrov Models d Seleced Alcos Seech Recogo. Proceedgs of IEEE vol 77 o. 2 Februry 989. [6] GERSHO A. & GRAY R. M. Vecor Quzo d Sgl Comresso. Kluwer. 993. [7] SOUZA M.. Comucção Pessol. COPPE/UFRJ. Progrm de Egehr Bomédc. [8] Smsug. Smsug Voced. Telefoe com dscgem or voz. [9] IBM. VVoce Pro Mlleum. Edor de exos em oruguês. 999. h://www.br.bm.com [0] Phls. FreeSeech 2000. Edor de exos em oruguês. 999. h://www.seech.hls.com [] RAPOSO E. P. & STEMMER M. R. Um Ssem de Recohecmeo de Fl Alcdo Ierção com um Robô. As do XII Cogresso Brslero de Auomác. 998.. 2088-209. [2] LIMA A. A. Recohecmeo de dígos Isoldos Usdo DTW. Proeo Fl de Curso. UFRJ. 999. [3] ISHI C. T. ; PASSOS R. A. S. & SAOTOME O. Aálse e Imlemeção de um Ssem Recohecedor de Voz. As do XV Smóso Brslero de Telecomucções. 997.. 6-9. [4] KLAUTAU A. ; LEITÃO P. S. ; VIEIRA A. & TAKITA K. Recohecmeo de lvrs solds r lcção em uomção dusrl. As do X Cogresso Brslero de Auomác. 994.. 252-7. [5] MIAMI M. ; ALES. & SACHES I. Ssem Recohecedor de Plvrs Isolds com HMM-VQ Múllos Lvros de Códgos e Quzção Veorl de Eerg 39

r Lh Telefôc. As do XV Smóso Brslero de Telecomucções. 997.. 332-5. [6] SOLEWICZ J. A. & CALOBA L. P. Um Ssem Iegrável r o Recohecmeo de Plvrs Isolds em Poruguês. As do IX Cogresso Brslero de Auomác. 992.. 85-5. [7] SABUICHI C. A. & AGUIAR ETO B. G. Recohecmeo de Plvrs Isolds Ideedee de Locuor r Lígu Porugues do Brsl. As do IX Smóso Brslero de Telecomucções. 99.. 7..-5. [8] SILVA F. J. F. Imlemeção em Temo Rel de um Recohecedor de Dígos Isoldos Ideedee do Locuor. As do IX Smóso Brslero de Telecomucções. 99.. 7.2.-5. 40

Aêdce : Descrção dos rogrms ese êdce mosr-se um descrção do fucomeo dos rogrms crdos e ulzdos o logo dese rblho. Em odos eses rogrms ão form desevolvds ros rgoross de rmeo de erros. Poro s fxs de vlores revss r s oções devem ser reseds. O ssem é um lcção desevolvd r um lform Wdows 9x. Ele recohece os dígos de zero é ove. A erfce com o usuáro fo fe em Delh 3. As fuções que rocessm o sl de voz e fzem o recohecmeo form desevolvds o Borld C++ 5 e rsformds em DLLs. A.. Ssem de recohecmeo em emo rel O fucomeo do rogrm é smles. A el rcl é resed Fgur A.. Prmero er-se o boão Iclzr Ssem. Aós deecção de ruído de fudo elo ssem ode-se err o boão Recohecer ovo dígo e flr um lvr o mcrofoe. Será ocdo o som deecdo e ele mosrrá o dígo ms rovável. Dure odo o rocesso sução do ssem rece o cmo Sus ou se esse cmo mosr um mesgem formdo o que o ssem eser do usuáro. Pr relzção de eses do ssem ele mosr o módulo do logrmo ds robblddes ecords em cd modelo HMM. Assm é ossível ober um vlção melhor os csos em que o ssem errr o dígo. Tmbém é ossível ver lvr que fo deecd erdo-se o boão chmdo Ver sl. Com sso rece um el que mosr o sl que fo recordo. Podedo é mesmo ser ouvdo. Pode-se d cofgurr os râmeros ecessáros r exrção de râmeros. Pr sso er-se o boão Oções fzedo recer um el como mosr Fgur A.2. es el ecorm-se odos os râmeros que odem ser modfcdos. Qulquer mudç fe s fuções que esão dero de um DLL. Ms r que s oções surm efeo deve ser gerdo um codeboo e devem ser redos os modelos HMM dos dígos levdo-se em cosderção os vlores ulzdos esss coses. O codeboo e os modelos são grvdos os rquvos ceros.d e modelos.d resecvmee. 4

Fgur A. : Jel do rogrm rcl. Aus o mho d el. Vlores ossíves: 5ms 25ms Aus o mho d suerosção so é dsâc ere os ícos de um el e d róxm. Vlores ossíves: 5ms 25ms Vlores ossíves: 8KHz; 025KHz; 22050KHz; 4400KHz. Arbu os vlores deful r s oções. Eses vlores são os que esão mosrdos es Aus o úmero de râmeros cesrs. Lembrdo que d exsem os del cesrs eerg e del eerg Vlores ossíves: 6 8 For usdo ré-êfse. Somee são mosrds s css decms. Fgur A.2 : Jel de oções. 42

Todo o rocessmeo de voz fo feo em lgugem C o Borld C++ 5.0 e comldos em um DLL hmm.dll do Wdows 9x. A ulzção é fe rvés de dus fuções: cofgurco e recohece. A rmer clz ods s coses do rogrm. Ess cofgurções são usds el de oções do rogrm Fgur A.2. A segud fução deve ser chmd semre que se deser recohecer um lvr. El recebe um oero r o veor de ddos que coém lvr e o seu mho. Dero del são chmds s fuções: exrrmeros quz e verb; s qus mbém esão resees DLL. Abxo mosr-se o cbeçlho ds fuções em C e como els devem ser declrds dero do Delh. Com esss declrções ode-se ulzr o códgo d DLL como se fossem fuções comus ms omdo-se o cuddo de colocr DLL o mesmo dreóro que o rogrm em Delh. Declrção em C: exer "C" declsecdllexor vod WIAPI cofgurcoo e ero ero ol ero ero c ero h ero m { códgo... } exer "C" declsecdllexor ero WIAPI recoheceero *sero m { códgo... } Declrção em Delh: rocedure cofgurcoe: double; ol chm: smll; sdcll;exerl 'hmm.dll' me 'cofgurco'; fuco srrecs: sl;m: smll: smll; sdcll;exerl 'hmm.dll' me 'recohece'; O ssem de deecção de exremos de lvr é feo em Delh 3. A qusção de ddos é relzd rvés de fuções do Wdows 9x. Desse modo ão é ecessáro ehum cohecmeo révo sobre o o de lc de som que o mcrocomudor esá ulzdo dexdo o corole de ms bxo ível r o róro Wdows. O rquvo que coêm o códgo d deecção chm-se delvr.s e su ulzção é fe rvés dos rocedmeos mosrdos bxo: rocedure IclzSsem : chmdo elo boão Iclz Ssem d el rcl. Iclz s vráves c ruído de fudo e bre cl de voz. rocedure DeecPlvrvr mge : mge_wve_fle : começ deecção de um lvr e r es qudo um lvr é deecd. Grv lvr deecd vrável mge. rocedure FlsSsem : fech cl de voz. rocedure TocPlvrDeecdmge : mge_wve_fle : Toc rquvo wve que esver memór e for ssdo como râmero d fução. 43

A.2. Exrção de râmeros: Ese rogrm cu erfce esá resed Fgur A.3 relz exrção de râmeros e cr o couo de remeo que será ulzdo r gerr o codeboo. Pr sso us-se s oções Fgur A.4. ão se deve esquecer de usr os mesmos vlores dure o ese do ssem. Ao err o boão cr o rogrm começ clculr odos os râmeros r cd el do sl. Ao ermr o rocessmeo os râmeros exrídos devem ser slvos em um rquvo exo. Exemlo de rquvo de erd com 2 mosrs de cd dígo: Formo do rquvo de síd:.\wves\zero.wv.\wves\zero2.wv.\wves\um.wv.\wves\um2.wv.\wves\dos.wv.\wves\dos2.wv.\wves\rês.wv.\wves\rês2.wv.\wves\quro.wv.\wves\quro2.wv.\wves\cco.wv.\wves\cco2.wv.\wves\ses.wv.\wves\ses2.wv.\wves\see.wv.\wves\see2.wv.\wves\oo.wv.\wves\oo2.wv.\wves\ove.wv.\wves\ove2.wv {Temo gso: Hor Muo Segudo Mlsegudo} {úmero de els rmer wve} {ls de râmeros cd lh corresode um el} {úmero de els segud wve} {ls de râmeros cd lh corresode um el}... {úmero de els úlm wve} {ls de râmeros cd lh corresode um el} 44

Arquvo exo com um lsgem de odos os rquvos de som *.wv. Ic exrção de râmeros Abre el de oções mosrd em A.4. Mosr o íco e érmo do rogrm e o emo gso o rocessmeo. Abre el drão do Wdows r escolher o ome e slvr um rquvo exo com odo o couo de remeo. Fgur A.3 : Jel do rogrm de exrção de râmeros. Aus o mho d el. Vlores ossíves: 5ms 25ms Aus o mho d suerosção so é dsâc ere os ícos de um el e d róxm. Vlores ossíves: 5ms 25ms Vlores ossíves: 8KHz; 025KHz; 22050KHz; 4400KHz. Arbu os vlores deful r s oções. Eses vlores são os que esão mosrdos es Aus o úmero de râmeros cesrs. Lembrdo que d exsem os del cesrs eerg e del eerg Vlores ossíves: 6 8 For usdo ré-êfse. Somee são mosrds s css decms. Fgur A.4 : Jel de oções do rogrm. 45

A.3. Gerção do Codeboo Ese rogrm ger um codeboo r cd mho ere o cl e o fl 2 2 2 2 4 2 3 8... 2 0 024. Isso ou emo qudo se quer codeboos de város mhos com mesm bse de ddos. Ele ulz o couo de remeo crdo elo rogrm eror como erd. A erfce dese rogrm rece Fgur A.5. Aós usr s oções er-se o boão cr e gurd-se o érmo do rocessmeo. o fl eremos rquvos do o cbxx.x e cerosxx.d ode XX é o mho do codeboo 248...024. Os rquvos cbxx.x são ulzdos elo róxmo rogrm Seção A.4 r crr os modelos. As formções cods ele é mosrd bxo. Os cerosxx.d são rquvos báros coedo o codeboo gerdo r o mho XX corresodee. Ele esá o formo dequdo r os rogrms que esm Seções A. e A.5. Formo dos rquvos cbxx.x : {Temo gso: Hor Muo Segudo Mlsegudo} {úmero ol de els} {úmero de ceródes} {úmero de râmeros} {es} {lmr de érmo} {dsâc méd ol} {o mesmo codeboo que rece o rquvo cerosxx.d corresodee} {veores quzdos} {dsâc o resecvo ceróde} cd lh corresode um el Arquvo de erd que fo gerdo elo rogrm de exrção dos râmeros. Tmho cl e fl r o lgormo LBG com cerod slg. Se forem gus eremos es o LGB Prefxo ulzdo os rquvos de síd. Arquvo com o codeboo cl. Váldo es se o mho cl for mor que zero. úmero ol de râmeros or veor o codeboo. ++2 Mosr mesges vsdo o íco e o érmo do rocessmeo Vlor ulzdo r dvdr os ceródes. Lmr r codção de érmo do lgormo LBG. Ic gerção dos codeboos Fgur A.5 : Jel do rogrm que ger os codeboos. 46

A.4. Tremeo dos modelos HMM Ese rogrm cr o rquvo modelos.d com os modelos HMM de cd dígo. Pr sso ele ulz como erd o couo de remeo quzdo elo rogrm eror cbxx.x. Prmero s oções devem ser usds. Eão er-se o boão cr e gurd-se que sur mesgem de érmo do rocessmeo. O remeo é relzdo com o lgormo de Bum-Welch. Prefxo do rquvo de erd que fo crdo elo rogrm eror. Por exemlo coloque cb se o rquvo eror se chmr cb28.x. Arquvo de síd ão ode ser lerdo modelos.d úmero de mosrs de cd dígo. Máxmo 00 O mho do codeboo é dos elevdo o vlor dese em. úmero máxmo de erções o cálculo dos modelos. Isso ev que o rogrm execue defdmee. Ic o rocessmeo úmero de esdos or modelo. Vlores ossíves: 3 é 8 Mosr o íco e érmo do rogrm e o emo gso o rocessmeo. Fgur A.6 : Jel do rogrm que relz o remeo dos modelos HMM. 47

A.5. Tese d x de cero Ese rogrm erme relzr o ese do ssem r um ls de rquvos de som. Clculdo x de cero r cd dígo. Ele recebe um rquvo de erd do mesmo o usdo elo rogrm que ger o couo de remeo seção A.2. Iclmee us-se s oções Fgur A.8 o rquvo de erd e o úmero de sos or dígo. Eão er-se o boão cr e gurd-se. Ao érmo dverss formções serão mosrds. Será mosrdo o emo gso um bel de cofusão dígo resedo vs dígo recohecdo méd de cero or dígo e méd de cero ol do ssem. Além dsso ode-se verfcr s robblddes ecords or dígo ver form de od e ocá-lo. Pr sso escolhe-se o dígo e o úmero d mosr do dígo co sueror esquerdo d el. Tmbém é ossível ver úlm lh d bel som de ods s ocorrêcs de um deermdo esdo r ods s mosrs de um dígo o dígo mbém deve ser usdo o co sueror esquerdo. Fgur A.7 : Jel rcl do rogrm que relz s esíscs. 48

Fgur A.8 : Jel de oções. 49