Vozes de Celebridades Paulo Eduardo dos Santos Veloso Braga Dissertação para obtenção do Grau de Mestre em Engenharia Electrotécnica e de Computadores Júri: Presidente: Orientador: Co-Orientador: Vogal: Doutor Carlos Filipe Gomes Bispo Doutora Isabel Maria Martins Trancoso Doutor Hugo Daniel dos Santos Meinedo Doutor Jorge dos Santos Salvador Marques Outubro de 2011
ii
Agradecimentos Gostaria de agradecer às diversas pessoas que contribuíram para a realização desta Dissertação de Mestrado. Em primeiro lugar quero agradecer à Professora Isabel Trancoso pela sua orientação, conselhos e oportunidade de realizar este trabalho. Agradeço também ao Hugo Meinedo por toda a ajuda, colaboração e disponibilidade ao longo da realização deste trabalho que me permitiram ultrapassar algumas dificuldades. Gostaria também de agradecer a todos do L2F do INESC-ID, em especial ao Alberto Abad, pela ajuda e disponibilidade sempre que necessário. Por fim, também gostaria de agradecer à minha namorada e família por toda a motivação e apoio. iii
iv
Resumo Esta dissertação descreve um sistema de verificação do orador independente do texto utilizado para encontrar vozes de celebridades em programas noticiosos televisivos. Dois classificadores diferentes foram treinados e testados com segmentos manualmente identificados por anotadores. Nestas condições, o classificador SVM-GSV obteve um melhor desempenho do que o classificador GMM- UBM, particularmente para segmentos de maior duração. Devido à diferença de desempenho para segmentos de menor e maior duração, foi criado o sistema GMM-UBM+SVM-GSV que classifica um segmento através de um dos dois classificadores, dependendo da duração do segmento de teste. Este sistema foi utilizado para encontrar oradores a identificar em programas noticiosos televisivos recentes, onde os segmentos foram identificados automaticamente por um módulo de Pré- Processamento Áudio. O desempenho do sistema GMM-UBM+SVM-GSV foi menor, mas após alguns ajustamentos foi possível melhorar os resultados obtidos. O resultados são integrados no sistema de monitorização de média existente e apresentados numa página de internet, onde é possível visualizar os vídeos dos segmentos atribuídos a cada orador identificado pelo sistema. Devido às diferenças existentes entre o tempo de treino dos diferentes oradores e a duração dos segmentos de teste, existe uma maior dificuldade neste trabalho quando comparado com os tradicionais sistemas de verificação do orador, onde os modelos oradores são treinados com o mesmo tempo de treino e os segmentos de teste têm a mesma duração. Palavras-chave Reconhecimento do Orador Verificação do Orador Independente do Texto Vozes de Celebridades Modelos de Misturas Gaussianas Máquina de Suporte Vectorial Supervector Programas Noticiosos v
vi
Abstract This dissertation described a text-independent speaker verification system applied to finding voices of well-known persons in broadcast news shows. Two different classifiers were trained and tested with segments manually defined by annotators. In these conditions, the SVM-GSV classifier performed better than the GMM-UBM one, particularly for longer segments. The performance difference for short and long segments led us to create a GMM-UBM+SVM-GSV system which classifies a test segment using one of two classifiers, depending on the duration of the test segment. This system was used to identify target speakers in recent news shows, for which segments were automatically defined by an Audio Pre-Processing module. The performance of the GMM-UBM+SVM-GSV system was lower, which led to new successful experiments with further tuning. The results obtained are integrated into the existing media monitoring system and presented in a web page, where it is possible to view a video of each segment assigned to each speaker identified by the system. Due to differences between each speaker training time and duration of test segments, there is greater difficulty in this task when compared to traditional speaker verification systems, where the speaker models are trained with same trained time and test segments have the same duration. Keywords Speaker Recognition Text-independent Speaker Verification Celebrity Voices Gaussian Mixture Models Support Vector Machines Supervector News Shows vii
viii
Índice Agradecimentos... iii Resumo... v Abstract... vii Índice... ix Lista de Figuras... xi Lista de Tabelas... xiii Lista de Acrónimos... xv Capítulo 1: Introdução...1 1.1. Enquadramento...2 1.2. Objectivos e Contribuições...4 1.3. Organização...5 Capítulo 2: Sistema de Reconhecimento do Orador...7 2.1. Introdução...8 2.2. Pré-Processamento Áudio...8 2.3. Extracção de Características...9 2.4. Sistemas de Classificação...9 2.5. Normalização... 10 2.5.1. Normalização Z... 12 2.5.2. Normalização T... 13 2.5.3. Normalização ZT... 14 2.6. Métricas... 16 2.6.1. Curva DET... 16 2.6.2. EER... 17 2.6.3. DCF min... 17 2.7. Estado da Arte... 18 Capítulo 3: Corpora... 25 3.1. Introdução... 26 3.2. Corpus de Treino... 27 3.3. Corpus de Desenvolvimento... 28 3.4. Corpus de Teste... 29 Capítulo 4: Características... 31 4.1. Introdução... 32 ix
4.2. Pré-Processamento Áudio... 32 4.3. Coeficientes PLP... 33 Capítulo 5: Classificadores... 37 5.1. Introdução... 38 5.2. Propriedades do GMM-UBM... 38 5.3. Propriedades do SVM-GSV... 47 Capítulo 6: Resultados... 55 6.1. Corpora... 56 6.1.1. Treino... 56 6.1.2. Desenvolvimento... 57 6.1.3. Teste... 57 6.2. Avaliação do sistema GMM-UBM... 58 6.2.1. Descrição... 58 6.2.2. Normalização... 59 6.2.3. Resultados... 61 6.3. Avaliação do sistema SVM-GSV... 66 6.3.1. Descrição... 66 6.3.2. Normalização... 67 6.3.3. Resultados... 68 6.4. Comparação entre os sistemas GMM-UBM e SVM-GSV... 72 6.5. Avaliação do sistema GMM-UBM+SVM-GSV... 74 6.5.1. Descrição... 74 6.5.2. Resultados... 75 Capítulo 7: Interface Web... 81 7.1. Introdução... 82 7.2. Descrição... 82 7.3. Corpora... 83 7.4. Resultados... 86 Capítulo 8: Conclusões e Trabalho Futuro... 91 8.1. Conclusões... 92 8.2. Trabalho Futuro... 95 Referências... 97 x
Lista de Figuras Figura 1.1: Diferentes áreas do processamento de fala....3 Figura 2.1: Sistema genérico de reconhecimento do orador....8 Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado).... 11 Figura 2.3: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após normalização.... 12 Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste... 13 Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste... 14 Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste.... 15 Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste.... 15 Figura 2.8: Exemplo de uma curva DET.... 17 Figura 2.9: Exemplo de uma curva DET com o valor do DCF min... 18 Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM (adaptado de [Hasan and Hansen, 2010]).... 20 Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de [Hasan and Hansen, 2010])... 20 Figura 2.12: Valores do EER e do DCF min obtidos por diferentes sistemas de reconhecimento do orador (adaptado de [Fauve et al., 2007b]).... 22 Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5 minutos.... 22 Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5 minutos.... 23 Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]).... 32 Figura 5.1: Representação de um modelo de misturas Gaussianas.... 39 Figura 5.2: Histograma de um único coeficiente extraído se um segmento de fala.... 40 Figura 5.3: Exemplo de um GMM.... 40 Figura 5.4: Treino do UBM com todos os dados de treino... 42 Figura 5.5: Treino de UBMs individuais e posterior combinação.... 42 Figura 5.6: Método de adaptação de um GMM do orador (adaptado de [Reynolds, 1995] ) a) Modelo do UBM e características do orador b) GMM do orador obtido por adaptação.... 43 Figura 5.7: Sistema de reconhecimento com K modelos impostores... 46 Figura 5.8: Sistema de reconhecimento com o UBM como único modelo impostor.... 46 Figura 5.9: Conceito geral do treino de um classificador.... 48 xi
Figura 5.10: Dados de treino separados por um hiperplano de margem máxima.... 48 Figura 5.11: Mapeamento não linear realizado pelo classificador SVM.... 50 Figura 5.12: Conceito de um supervector GMM (adaptado de [Campbell et al., 2006b]).... 51 Figura 5.13: Estrutura de um sistema SVM-GSV.... 53 Figura 6.1: Distribuição de resultados dos modelos oradores quando testados com segmentos autênticos (vermelho) e segmentos impostores (azul).... 62 Figura 6.2: Curva DET do sistema GMM-UBM.... 65 Figura 6.3: Distribuição de resultados dos modelos oradores quando testados com segmentos autênticos (vermelho) e segmentos impostores (azul).... 68 Figura 6.4: Curva DET do sistema SVM-GSV... 71 Figura 6.5: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV em função da duração dos segmentos impostores.... 73 Figura 6.6: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV em função da duração dos segmentos autênticos.... 73 Figura 6.7: Distribuição de resultados dos modelos oradores quando testados com segmentos autênticos (vermelho) e segmentos impostores (azul).... 75 Figura 6.8: Comparação das curva DET dos sistemas GMM-UBM, SVM-GSV... 79 Figura 6.9: EER e DCF mínimo dos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.... 79 Figura 7.1: Distribuição de resultados dos modelos oradores quando testados com os segmentos autênticos (vermelho) e segmentos impostores (azul).... 86 Figura 7.2: Curva DET do sistema GMM-UBM+SVM-GSV.... 88 Figura 7.3: Página HTML com os segmentos pertencentes a cada orador.... 89 xii
Lista de Tabelas Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste.... 26 Tabela 3.2: Conjunto de treino.... 27 Tabela 3.3: Conjunto de programas presentes no corpus de treino... 27 Tabela 3.4: Conjuntos de desenvolvimento.... 28 Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento.... 28 Tabela 3.6: Conjuntos de teste.... 29 Tabela 3.7: Conjunto de programas presentes no corpus de teste.... 29 Tabela 6.1: Oradores treinados e respectivo tempo de treino.... 57 Tabela 6.2: Número e duração média dos segmentos dos oradores.... 58 Tabela 6.3: Média e desvio padrão de cada modelo orador para o sistema GMM-UBM.... 61 Tabela 6.4: Média e desvio padrão dos resultados dos segmentos impostores... 63 Tabela 6.5: Média e desvio padrão dos resultados dos segmentos autênticos.... 63 Tabela 6.6: Média dos resultados obtidos em função da duração dos segmentos impostores... 64 Tabela 6.7: Média dos resultados obtidos em função da duração dos segmentos autênticos.... 64 Tabela 6.8: Média e desvio padrão de cada modelo orador para o sistema SVM-GSV.... 67 Tabela 6.9: Média e desvio padrão dos resultados dos segmentos impostores... 69 Tabela 6.10: Média e desvio padrão dos resultados dos segmentos impostores.... 70 Tabela 6.11: Média dos resultados obtidos em função da duração dos segmentos impostores.... 70 Tabela 6.12: Média dos resultados obtidos em função da duração dos segmentos autênticos.... 71 Tabela 6.13: Resultados médios dos sistemas GMM-UBM e SVM-GSV para segmentos autênticos. 74 Tabela 6.14: Média e desvio padrão das distribuições de resultados impostores obtidos pelos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.... 76 Tabela 6.15: Média e desvio padrão das distribuições de resultados autênticos obtidos pelos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.... 76 Tabela 6.16: Média e desvio padrão dos resultados dos segmentos impostores.... 77 Tabela 6.17: Média e desvio padrão dos resultados dos segmentos autênticos.... 77 Tabela 6.18: Média dos resultados obtidos em função da duração dos segmentos impostores.... 78 Tabela 6.19: Média dos resultados obtidos em função da duração dos segmentos autênticos.... 78 Tabela 7.1: Conjunto de programas noticiosos analisados.... 84 Tabela 7.2: Número e duração média dos segmentos após o APP.... 84 Tabela 7.3: Número e duração média de todos os segmentos obtidos após concatenação.... 85 Tabela 7.4: Número e duração média dos segmentos autênticos obtidos após concatenação.... 85 Tabela 7.5: Média e desvio padrão dos resultados dos segmentos impostores... 87 Tabela 7.6: Média e desvio padrão dos resultados dos segmentos autênticos.... 87 xiii
Tabela 7.7: EER e DCF mínimo dos programas noticiosos analisados.... 87 Tabela 7.8: Desempenho dos oradores presentes no programa 2011_04_04-Telejornal-1.... 89 Tabela 7.9: Desempenho dos modelos oradores presentes no programa 2011_05_06-Telejornal-1.. 90 Tabela 7.10: Desempenho dos modelos oradores presentes no programa 2011_05_12-Telejornal-1.... 90 Tabela 7.11: Desempenho dos modelos oradores presentes no programa 2011_05_25-Telejornal-1.... 90 xiv
Lista de Acrónimos ADN DET DCF EM ERR FN FP GLDS GMM GSL GSV HMM HTML KL L2F RASTA MFCC NIST PLP RN SVM UBM VQ XML Ácido desoxirribonucleico Detection Error Trade-off Detection Cost Function Expectation Maximization Equal Error Rate Falsos negativos Falsos positivos Generalized Linear Discriminant Sequence Kernel Gaussian Mixture Model Gaussian Supervector Linear Gaussian Supervector Hidden Markov Model HyperText Markup Language Kullback-Leibler Laboratório de sistemas de Língua Falada Logaritmic Relative Spectral Transform Mel Frequency Cepstral Coefficients National Institute of Standards and Technology Perceptual Linear Predictive Redes Neuronais Support Vector Machine Universal Background Model Vector Quantization Extended Markup Language xv
xvi
Capítulo 1 Capítulo 1: Introdução 1
1.1. Enquadramento Com o aumento das aplicações que tiram partido do recente desenvolvimento na área das telecomunicações e da internet, surge também o aumento da necessidade de reconhecer uma pessoa através das suas características físicas como forma de a identificar unicamente. Este interesse acontece em diferentes áreas do reconhecimento, tais como: controlo de acesso a sistemas informáticos [Naik and Doddington, 1987], autenticação para chamadas de longa distância ou de acesso ao banco [Naik et al., 1989], respostas personalizadas por parte de atendedores automáticos [Schmandt and Arons, 1984], reconhecimento automático de oradores em grandes quantidades de ficheiros gravados [Wilcox et al., 1994], aplicações forenses [Campbell et al., 2005], etc. A voz é uma das características que pode ser usada na identificação de um ser humano uma vez que cada pessoa possui características únicas [Doddington, 1985]. Outras características biométricas, por princípio pessoais e intransmissíveis, podem também ser usadas para identificar ou autenticar uma pessoa, nomeadamente, a impressão digital, a retina, a face, a assinatura escrita ou o ADN. Em qualquer destes casos, a identificação é realizada através da comparação das características recolhidas com outras armazenadas previamente. Uma forma de aumentar a segurança de uma aplicação que requer a autenticação de uma pessoa através da sua voz passa por implementar outros sistemas de segurança, tais como, a utilização de uma senha ou a identificação de outras características biométricas. Numa sociedade em que a identificação de uma pessoa se torna cada vez mais necessária e imprescindível, a comunidade científica tem procurado nos últimos anos criar sistemas de reconhecimento de oradores cada vez mais rápidos e com desempenhos superiores. No entanto, ainda existem problemas por resolver nesta área. Um sinal de voz é geralmente composto por palavras que juntas formam a frase que se pretende transmitir, no entanto, informações acerca da identidade do orador também podem ser analisadas. É precisamente na extracção e análise das características presentes num segmento de fala que se baseia o reconhecimento do orador. Diversas variações podem ocorrer na voz de um orador quando este se encontra em diferentes situações ou estados, provocando alterações que dificultam a tarefa de verificação do orador [Kenny et al., 2007]. Assim, o desempenho de um sistema de reconhecimento do orador pode variar de acordo com: Estado de saúde, estado emocional e ambiente; 2
Fisiologia, língua e dialecto/sotaque; Tipo de fala: leitura ou espontânea, formal ou casual; Distorções acústicas devido a: o Meios de gravação diferentes; o Meios de transmissão diferentes; o Ruídos aditivos. O processamento de fala encontra-se dividido em três grandes áreas: a síntese, a codificação e o reconhecimento. A síntese de voz é a produção artificial de voz humana, geralmente a partir de texto ou de uma representação linguística simbólica. A codificação é uma técnica que lida com a capacidade de codificar sinais de fala que permitam, por exemplo, no caso de uma comunicação telefónica, obter uma boa qualidade da fala para débitos binários baixos. Por fim, o reconhecimento é a área responsável por interpretar a fala humana, como por exemplo para transcrição, por determinar a idioma natural de uma pessoa e por verificar a identidade de um orador através da sua voz. A Figura 1.1 apresenta as áreas mais importantes do processamento de fala, com destaque para o reconhecimento do orador. Processamento de Fala Sintese Reconhecimento Codificação Fala Orador Idioma Identificação Verificação Figura 1.1: Diferentes áreas do processamento de fala. Dependendo da aplicação, o reconhecimento do orador encontra-se geralmente dividido em duas áreas: identificação e verificação. Na identificação, o objectivo é determinar a quem, entre um grupo de oradores conhecidos, pertence o segmento áudio analisado. Este caso, em conjunto fechado, acontece quando apenas oradores de um grupo conhecido podem ser identificados. A segunda vertente, a verificação, consiste em determinar se um segmento áudio pertence ou não a um orador. 3
Este problema, em conjunto aberto, ocorre quando é necessário distinguir se um segmento áudio pertence a um orador a identificar pelo sistema ou se terá sido pronunciado por alguém de um conjunto de oradores não reconhecidos. Um sistema de reconhecimento do orador pode ainda ser dependente ou independente do texto, tendo em conta o tipo de dados usados para treino e teste. No caso de ser independente do texto, significa que frases diferentes das usadas para treino podem ser usadas para teste. Os sistemas dependentes do texto [Hébert, 2008] estão limitados ao tipo de frases que podem ser pronunciadas pelos oradores (tal como palavras-chave, dígitos, frases pré-determinadas, etc.) e por isso as frases usadas para treino devem ser idênticas às usadas para teste [Higgins et al., 1991]. A verificação na vertente independente do texto é a base da generalidade dos sistemas de reconhecimento do orador tendo uma dificuldade adicional devido ao desafio de não controlar o comportamento do orador. 1.2. Objectivos e Contribuições Esta dissertação tem como objectivo implementar um sistema de verificação do orador independente do texto de forma a encontrar vozes de celebridades em programas noticiosos televisivos. Dois classificadores diferentes foram treinados e testados, nomeadamente o Gaussian Mixture Model Universal Background Model (GMM-UBM) e o Support Vector Machine Gaussian Supervector (SVM-GSV), recorrendo à extracção dos coeficientes Perceptual Linear Predictive (PLP) dos segmentos que contêm fala. Os classificadores, GMM-UBM e SVM-GSV, começam por ser treinados e testados com segmentos manualmente identificados por anotadores. É realizada uma comparação entre os resultados obtidos pelos dois classificadores de forma a obter um sistema que combine os resultados de ambos e apresente um melhor desempenho. Este sistema, GMM-UBM+SVM-GSV, é usado para pesquisar por segmentos de fala proferidos por celebridades em programas noticiosos recolhidos recentemente pelo Laboratório de sistemas de Língua Falada (L2F), INESC-ID, onde os segmentos são identificados automaticamente por um módulo de Pré-Processamento Áudio. Os resultados são apresentados numa página de internet onde é possível visualizar os vídeos dos segmentos atribuídos ao oradores identificados. Os resultados do sistema de reconhecimento do orador independente do texto desenvolvido nesta dissertação podem ser integrados no sistema de monitorização de média existente capaz de identificar e apresentar informação específica contida em programas noticiosos televisivos. 4
1.3. Organização A dissertação encontra-se organizada da seguinte forma: O capítulo 2 apresenta os conceitos dos sistemas de reconhecimento do orador e uma visão geral do estado da arte. O capítulo 3 descreve os corpora disponíveis para treino, desenvolvimento e teste dos sistemas de reconhecimento do orador desenvolvidos. O capítulo 4 incide sobre o pré-processamento áudio e as características extraídas dos segmentos que contêm fala, utilizadas para caracterizar a voz de um orador. O capítulo 5 explica detalhadamente os classificadores, GMM-UBM e SVM-GSV, e a sua aplicação no reconhecimento do orador. O capítulo 6 descreve os corpora utilizados para treino, desenvolvimento e teste, a implementação dos sistemas de reconhecimento do orador, os resultados obtidos e a comparação entre os mesmos. Apresenta-se ainda um novo sistema de reconhecimento, capaz de obter melhores resultados dependendo da duração do segmento testado. O capítulo 7 apresenta os resultados obtidos pelo sistema de reconhecimento do orador desenvolvido quando testado com programas noticiosos televisivos recentes e a integração desses resultados numa página de internet. Finalmente, o capítulo 8 apresenta as conclusões e sugestões para trabalhos futuros. 5
6
Capítulo 2 Capítulo 2: Sistema de Reconhecimento do Orador 7
2.1. Introdução Um sistema de reconhecimento do orador é geralmente constituído pelos seguintes componentes principais: extracção de características, sistema de classificação e decisão. A Figura 2.1 apresenta o esquema genérico de um sistema de reconhecimento do orador. Pré- Processamento Áudio Extracção de Características Sistema de Classificação Normalização Aceita ou Rejeita Sinal de Fala Modelo Orador Modelos Impostores Figura 2.1: Sistema genérico de reconhecimento do orador. O sistema começa por extrair as características relevantes do segmento áudio que contém fala. De seguida, as características extraídas são comparadas com o modelo orador e com os modelos impostores anteriormente treinados através de um sistema de classificação. Por fim, o resultado é normalizado e o segmento é classificado como um segmento autêntico, pertencente ao orador a identificar, ou como um segmento impostor, pertencente a um outro orador. 2.2. Pré-Processamento Áudio Quando se pretende extrair as características de um sinal de fala apenas se devem processar as frames que contêm voz, sendo necessário ignorar o silêncio existente no inicio e no final do segmento, assim como o silêncio existente entre cada palavra. Da mesma forma, quando existem outros sons, como ruído de fundo ou música, que tornem a voz imperceptível, torna-se necessário excluir estas frames dos restantes processos. O pré-processamento áudio é efectuado antes da extracção de características como forma de identificar as frames necessárias para o processamento a realizar e excluir as frames que devem ser ignoradas. De uma forma mais geral, o pré-processamento áudio pode também ser utilizado para particionar e classificar um conjunto de segmentos áudio que posteriormente torne mais fácil o processo de reconhecimento do orador nesses segmentos. O particionamento pode ser realizado tendo em conta 8
alterações de background, como barulho ou música, ou a detecção de fala ou silêncio. A classificação corresponde a identificar se o orador de um determinado segmento é masculino ou feminino e a indicar quais os segmentos proferidos pelo mesmo orador. 2.3. Extracção de Características O objectivo da extracção de características de um sinal é criar uma nova representação num outro espaço ou dimensão, que pode ser usada para armazenamento, transmissão, síntese ou reconhecimento. No caso de um segmento áudio que contenha fala, são inúmeras as características que podem ser extraídas. Estas características podem ser usadas em diferentes tipos de reconhecimento, apresentando cada característica um melhor ou pior desempenho dependendo da finalidade. Por exemplo, para a tarefa do reconhecimento do orador pode ser usada a frequência fundamental, pitch, ou a frequência das formantes, enquanto a energia ou a taxa de cruzamentos por zeros possibilita o reconhecimento das palavras ou concluir acerca da presença de silêncio. Procura-se que as características extraídas de um segmento de fala sejam fáceis de determinar, representem de forma eficiente a informação do orador, sejam estáveis ao longo do tempo e que não sejam influenciadas pelo ambiente em que foram produzidas. Algumas das características usadas na detecção de eventos áudio, tais como Perceptual Linear Predictive (PLP), Mel Frequency Cepstral Coefficients (MFCC) ou Logaritmic Relative Spectral Transform (RASTA), são também comuns na identificação ou verificação do orador. A análise e o processamento de sinal tentam de certa forma modelar o sistema auditivo humano retendo as propriedades necessárias. Este processo pode ser realizado através da introdução de um filtro de escala Mel, caso dos MFCC [Davis and Mermelstein, 1980], ou de um filtro de escala Bark, caso dos PLP [Hermansky, 1990]. Desta forma os coeficientes passam a ter em conta informação perceptiva. 2.4. Sistemas de Classificação O sistema de classificação é o componente mais importante de um sistema de reconhecimento do orador. A sua função é treinar os modelos oradores a partir das características extraídas de segmentos de fala proferidos pelos mesmos, para que mais tarde, seja possível realizar uma verificação dos padrões existentes entre as características extraídas de um segmento de teste e os modelos treinados de cada orador. O resultado obtido pelo sistema de classificação para um 9
determinado segmento de teste determina a verosimilhança existente entre as características do segmento e um modelo orador. Alguns dos modelos mais utilizados no reconhecimento do orador são os Gaussian Mixture Models, (GMMs), onde cada modelo orador é composto por um conjunto de funções de densidade de probabilidade Gaussianas, criadas de forma a modelar as várias classes fonéticas de um orador. Este sistema não tem em consideração a evolução temporal do sinal, pelo que é mais apropriado para sistemas de reconhecimento independentes do texto. No caso de os oradores serem reconhecidos com recurso a uma palavra-chave ou uma frase prédeterminada, é necessário utilizar um modelo que descreva as características variantes no tempo, como o Hidden Markov Model (HMM). As Redes Neuronais (RN) também podem ser utilizadas para modelar as características de um orador através de camadas com várias unidades ligadas entre si e com um determinado peso. Este sistema utiliza um conjunto de características para ajustar a rede neuronal de cada orador, que é depois utilizada como modelo. Por fim, os Support Vector Machines (SVMs) são classificadores recentemente adoptados no reconhecimento do orador e considerados um dos classificadores mais robustos. Esta popularidade deve-se à capacidade de classificar dados nunca analisados. 2.5. Normalização O resultado obtido pelo sistema de classificação necessita de ser normalizado antes de se verificar se o segmento testado pertence ou não a um orador a identificar pelo sistema. Este ajuste é necessário devido às diferenças existentes nas condições em que foi recolhido o material de treino e o de teste, possibilitando também a criação de um limiar de decisão do sistema independente do orador, capaz de classificar o segmento testado como segmento autêntico (pertencendo ao orador) ou segmento impostor (não pertencendo ao orador). O facto de existirem diferenças na duração dos segmentos testados, no tempo de treino de cada orador, no ruído ambiente ou na forma como são recolhidos os segmentos áudio nas fases de treino e de teste, provocam variações nos resultados que devem, através de uma normalização, ser minimizados. Considerando que um modelo orador é testado com segmentos autênticos e segmentos impostores, os resultados provenientes do sistema de classificação terão duas distribuições diferentes de 10
resultados. Cada modelo orador apresentará um limiar de decisão diferente capaz de separar as duas distribuições que minimizará os erros em zonas em que ambas as distribuições se encontram sobrepostas. A Figura 2.2 apresenta um exemplo dos limiares de decisão de dois modelos oradores, e e do sistema de reconhecimento do orador,, para as distribuições de resultados obtidas pelos dois modelos quando testados com segmentos autênticos e segmentos impostores, representadas na Figura 2.2 a tracejado e a cheio, respectivamente. É possível deduzir que ao adicionar mais resultados de modelos oradores diferentes, a variabilidade do limiar de decisão do sistema aumenta, introduzindo assim mais erros no sistema. Modelo Orador 1 Modelo Orador 2 Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado). Numa situação ideal, o limiar de decisão do sistema seria igual independentemente do número de oradores reconhecidos, reduzindo desta forma os erros do sistema. No entanto, esta situação é pouco provável devido às razões já apresentadas anteriormente. Ao aplicar uma normalização pretende-se que as distribuições dos resultados de todos os oradores fiquem com média e desvio padrão aproximados, possibilitando desta forma a optimização do limiar de decisão do sistema. A Figura 2.3 apresenta os resultados obtidos após ser aplicada uma técnica de normalização. 11
Modelo Orador 1 Modelo Orador 2 Figura 2.3: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após normalização. Verifica-se que depois de aplicada a normalização, as distribuições dos resultados de ambos os modelos apresentam uma média e um desvio padrão aproximados, com os limiares de decisão dos modelos oradores mais próximos entre si. Desta forma, a variabilidade do limiar de decisão do sistema diminui e consequentemente a sua taxa de erro. As normalizações mais comuns usadas do reconhecimento do orador são a normalização Z, a normalização T e a normalização ZT. 2.5.1. Normalização Z Na normalização Z [Li and Porter, 1988, Auckenthaler et al., 2000] é necessário testar o modelo orador contra um conjunto de N segmentos pertencentes a diferentes impostores, obtendo-se para o modelo orador uma distribuição de resultados impostores com média e desvio padrão. Estes valores são estimados para efectuar a normalização do resultado, obtido pelo teste do segmento contra o modelo orador. (2.1) 12
A Figura 2.4 apresenta um esquema da normalização Z durante a fase de teste. Segmento Teste Modelo Orador Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste. Esta normalização apresenta como vantagem o facto do valor da média e do desvio padrão da distribuição de resultados impostores poderem ser obtidos antes da realização dos testes. 2.5.2. Normalização T Baseada na estimação dos mesmos parâmetros da média e do desvio padrão de uma distribuição de resultados, a normalização T [Auckenthaler et al., 2000] difere da normalização Z ao usar os resultados obtidos por vários modelos impostores, ao invés dos resultados obtidos por vários segmentos impostores. Durante a fase de teste, os resultados obtidos por um conjunto de M modelos impostores para um segmento de teste caracterizam-se por terem uma distribuição com média e desvio padrão. O valor normalizado do segmento quando testado pelo modelo orador é calculado de acordo com os resultados obtidos pelos M modelos impostores. (2.2) A Figura 2.5 apresenta o diagrama de blocos da normalização T. Ao contrário do que acontece na normalização Z, a normalização T apenas permite calcular o valor da média e do desvio padrão durante a fase de teste, implicando por isso um tempo computacional mais elevado. 13
Segmento Teste y Modelo Orador Modelo Impostor... Modelo Impostor... Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste. 2.5.3. Normalização ZT A normalização ZT [Zheng et al., 2005] junta ambos os processos das normalizações anteriores, conseguindo por isso melhores resultados. Ainda antes da fase de teste, começa-se por calcular os resultados obtidos pelo modelo orador quando testado com N segmentos impostores. De seguida, os resultados são normalizados, através de uma normalização T, usando a média e o desvio padrão dos resultados obtidos por M modelos impostores quando testados com os mesmos N segmentos impostores. (2.3) (2.4) Desta forma, obtêm-se os resultados, de onde é possível estimar a média e o desvio padrão dos mesmos. O esquema da normalização ZT a realizar antes da fase de teste encontra-se na Figura 2.6. 14
Segmento Impostor (1,, N) Modelo Orador Modelo Impostor... Modelo Impostor............... Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste. Durante a fase de teste, o segmento de teste y é testado no modelo orador e nos M modelos impostores, onde são obtidos e,,,, respectivamente. Novamente é realizada uma normalização T de onde se obtêm o resultado. Por fim, o resultado final normalizado é obtido recorrendo aos valores da média e o desvio padrão calculados anteriormente. (2.5) A Figura 2.7 apresenta um diagrama de blocos da normalização ZT durante a fase de teste. Segmento Teste y Modelo Orador Modelo Impostor... Modelo Impostor... Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste. 15
2.6. Métricas Dois tipos de erros ocorrem num sistema de verificação do orador, nomeadamente a não detecção e o falso alarme. O primeiro, não detecção ou falso negativo, ocorre quando um segmento autêntico não é reconhecido quando testado pelo modelo orador correspondente. O segundo, falso alarme ou falso positivo, acontece quando um segmento impostor ilude um modelo que não é o seu, sendo classificado como pertencendo ao orador. Ambos os erros dependem do limiar de decisão do sistema criado como separador para aceitar ou rejeitar um segmento testado. Com um limiar baixo, o sistema tende a aceitar todos os segmentos testados fazendo aumentar o número falsos positivos. Por outro lado, um limiar de decisão alto torna o sistema susceptível a mais falsos negativos e a poucos falsos positivos, existindo por isso uma maior dificuldade em detectar os segmentos autênticos. As taxas de falsos positivos (FP) e de falsos negativos (FN) são definidas como o ponto de operação do sistema e ditam o valor do limiar de decisão escolhido para modo de operação. Na prática, estas taxas de erro, falsos positivos e falsos negativos, correspondem à percentagem de erros que ocorrem na fase de teste e podem ser representadas por e, respectivamente. 2.6.1. Curva DET Uma vez que ambas as taxas são funções do limiar de decisão escolhido, é possível representar o desempenho do sistema através de um gráfico com em função de. A curva Detection Error Trade-off (DET) [Martin et al., 1997] conhecida como a característica de operação do sistema, é monótona e decrescente. Quanto melhor for o desempenho do sistema, mas perto da origem do gráfico se encontra a curva. Um exemplo de uma curva DET encontra-se na Figura 2.8. 16
Falsos Negativos (em %) Falsos Positivos (em %) Figura 2.8: Exemplo de uma curva DET. 2.6.2. EER O EER, Equal Error Rate, é a métrica mais comum e simples de calcular num sistema de verificação de orador. Para obter o EER é necessário que o limiar de decisão do sistema escolhido iguale a taxa de FP com a taxa de FN, ou seja,. Quanto mais baixo for o EER melhor será o desempenho do sistema a separar os segmentos autênticos dos segmentos impostores. O valor do EER também pode ser obtido através da Figura 2.8 e corresponde à intercepção da curva DET com a recta x = y. Nesse exemplo, o limiar de decisão do sistema escolhido iria igualar ambas as taxas de erro com um valor de aproximadamente 8%. 2.6.3. DCF min O DCF min, Detection Cost Function é uma medida de erro utilizada pelo National Institute of Standards and Tecnology (NIST) nos várias provas realizadas que avaliam os mais recentes sistemas de reconhecimento do orador [NIST, 2010]. Este é um método de avaliação que permite atribuir diferentes custos aos dois tipos de erros existentes, criando uma média ponderada entre FP e os FN: 17
Falsos Negativos (em %) (2.6) Onde,, e. O facto de possibilitar que sejam atribuídos diferentes custos aos FP e aos FN torna possível que seja preferível não identificar correctamente um orador do que ser autenticado um impostor. Um exemplo de uma curva DET e do respectivo ponto de funcionamento do sistema que permite obter um determinado DCF min pode ser observado na Figura 2.9. Falsos Positivos (em %) Figura 2.9: Exemplo de uma curva DET com o valor do DCF min. No exemplo da Figura 2.9, o limiar de decisão do sistema é escolhido de forma a permitir uma taxa de falsos negativos de 28% e de falsos positivos de apenas 0,6%. 2.7. Estado da Arte O National Institute of Standards and Technology (NIST) é, para a comunidade científica, uma das principais referências nas pesquisas e nas últimas tecnologias utilizadas para o reconhecimento do orador. Desde 1996 que este instituto coordenada e realiza uma prova com regras bem definidas, 18
onde os participantes são convidados a testarem os seus métodos utilizando o mesmo conjunto áudio disponibilizado pelo próprio NIST. Mais de 40 pesquisadores têm desde então participado nesta avaliação, sendo ainda convidados novos pesquisadores e universidades todos os anos. Estas avaliações são uma importante contribuição para a direcção dos esforços de investigação na área do reconhecimento do orador independente do texto. Têm por isso, como objectivo global, o avanço da tecnologia utilizada, medir o estado da arte e encontrar as abordagens algorítmicas mais promissoras. É por este motivo que a maior parte das experiências realizadas na área do reconhecimento do orador tentam aproximar-se da melhor forma das provas realizadas pelo NIST. Em [Schmidt-Nilsen and Crystal, 2000] é realizada uma experiência de verificação do orador que compara o desempenho do ser humano com alguns sistemas de reconhecimento. Uma vez que os computadores e os humanos têm diferentes limites e capacidades, como a memória ou a resistência à fadiga, foi necessário realizar alguns ajustes nos testes realizados aos humanos. Os resultados obtidos mostraram que os humanos conseguem um EER de 8%, igualando o melhor sistema de reconhecimento usado nas avaliações do NIST da altura. Outros sistemas típicos de reconhecimento do orador obtêm taxas na ordem dos 12% a 14%. O desempenho dos humanos ainda se mostra ser mais robusto em gravações com pior qualidade. Um dos sistemas de reconhecimento do orador mais usado e estudado actualmente é o sistema Gaussian Mixture Model (GMM). O artigo [Reynolds, 1995] introduziu os modelos de misturas Gaussianas usados no reconhecimento do orador na vertente independente do texto. Neste classificador, as componentes Gaussianas de um GMM são usadas para modelar as características individuais de um orador. Mais tarde, em [Reynolds et al., 2000] os modelos de misturas Gaussianas dos oradores passaram a ser adaptados de um Universal Background Model (UBM). Este método, mais eficiente computacionalmente, apresenta uma melhoria nos resultados [Bimbot et al., 2004]. Nesta experiência, desenvolvida de acordo com as regras definidas pelo NIST, foi utilizado o corpus de 1999 disponibilizado pelo NIST. Foram treinados 11 modelos oradores com 120 segundos e testados contra segmentos com tamanho entre os 0,5 e os 60 segundos. O UBM, composto por 2048 misturas Gaussianas, foi treinado a partir de todo o conjunto de treino disponível. O EER obtido pelo sistema foi de aproximadamente 10%. O estudo [Hasan and Hansen, 2010] foca-se em detalhe no desempenho de um sistema de verificação do orador quando os dados presentes no UBM do sistema GMM são seleccionados e alterados de diferentes maneiras, incluído na quantidade de dados de treino e no número de oradores presentes. Provou-se experimentalmente que aumentar gradualmente o número de oradores presentes no UBM, sem aumentar o tempo total de treino, origina um sistema com um desempenho melhor, como apresenta a Figura 2.10. Os oradores foram escolhidos aleatoriamente e o EER foi calculado através da média de cinco experiencias independentes. Ainda no mesmo estudo, verificouse que se os dados de treino do UBM mantiverem a mesma diversidade, então apenas uma parte dos 19
EER EER dados são suficientes para treinar o UBM, como mostra a Figura 2.11. Neste teste, o UBM foi treinado apenas com os primeiros segundos de cada segmento. Número de oradores no UBM Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM (adaptado de [Hasan and Hansen, 2010]). Dados de Treino do UBM (h) Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de [Hasan and Hansen, 2010]). No mesmo ano em que Reynolds gera os modelos dos oradores a partir de um UBM, um outro método, [Wan and Campell, 2000], testa a performance dos Support Vector Machines (SVMs) na tarefa da verificação do orador. Para os autores, esta abordagem parece indicada na verificação do orador devido a natureza binária das decisões do classificador. Nesta experiência foram seleccionados 138 oradores da base de dados de YOHO [Campbell, 1995], sendo que 69 oradores foram seleccionados para treino e teste, enquanto os segmentos dos restantes oradores apenas foram usados para teste. Na fase de treino foram criados 69 modelos de oradores, onde cada modelo foi treinado contra os restantes 68 oradores. A utilização de SVM na verificação do orador conseguiu um EER de 0,59%, um valor aproximado mas não tão bom como os resultados obtidos pelo sistema GMM que apresentou um EER entre os 0,5% e os 0,6%. Como já afirmado anteriormente, esta experiência foi realizada com a base de dados de YOHO, que apenas contém palavras-chave, com por exemplo 67 34 85, proferidas pelos oradores num ambiente controlado. 20
Um dos aspectos importantes na utilização dos SVM é a escolha do kernel usado para separar os dados de entrada em classes através de um hiperplano. Em [Campbell et al., 2006a] é introduzido um novo kernel, denominado Generalized Linear Discriminant Sequence Kernel (GLDS) e comparado com o sistema GMM. Em [Campbell et al., 2006b], é apresentada uma nova aplicação das SVM com um kernel linear através da utilização de Supervectores formados a partir das médias das misturas Gausianas dos GMM, denominados por isso de Gaussian Supervectores (GSV) ou Gaussian Supervector Linear (GSL). Os resultados foram obtidos utilizando o corpus de 2005 disponibilizado pelo NIST, com cada modelo orador, constituído por 2048 misturas Gaussianas, a ser treinado com 20 minutos e testado com segmentos de 2,5 minutos. O EER do sistema SVM-GSV foi de 4%, enquanto para os mesmos segmentos de treino e teste o sistema GMM-UBM obteve um EER de 6%. Desde 2004 que uma das condições impostas pelo NIST para participação nas provas está relacionada com a obtenção do desempenho dos sistemas de reconhecimento do orador em conversas telefónicas entre duas pessoas com duração aproximada de 5 minutos. Estas condições têm por isso recebido mais atenção por parte da comunidade científica. No entanto, em situações reais, a quantidade de fala disponível é geralmente menor, o que leva a sejam feitos estudos como em [Fauve et al., 2007a] apenas com 10 segundos de treino e teste, em que se verificam as limitações e capacidades de diversos métodos de adaptação de modelos. Os resultados mostram também que a duração do segmento que contém fala é um importante factor no desempenho de um sistema de reconhecimento. A evolução verificada no estado da arte do reconhecimento do orador pode ser consultada em [Fauve et al., 2007b] onde algumas técnicas de verificação do orador são comparadas: GMM-UBM, SVM- GSV e SVM-GLDS. Os testes foram realizados na plataforma ALIZE [Bonastre et al., 2005], um software open source, com conjuntos de treino e teste iguais. No caso dos sistemas de fusão, os pesos aplicados foram iguais. Os resultados obtidos encontram-se na Figura 2.12. É possível observar que o sistema SVM-GSV obteve o EER e DCF min mais baixos tendo mesmo superado sistemas de fusão entre os diferentes métodos de reconhecimento. Outra comparação entre sistemas de reconhecimento encontra-se descrita em [Reynolds and Campbell, 2007] onde foram testados os mesmos sistemas de reconhecimento, GMM-UBM, SVM- GLDS e SVM-GSV, mas com recurso ao áudio disponibilizado pelo NIST. Foi ainda calculado o desempenho da fusão entre os três sistemas. Realizaram-se duas experiências distintas, com diferentes condições de treino. Na primeira experiência utilizaram-se 2,5 minutos para treino de cada orador, enquanto na segunda experiência cada modelo orador foi treinado com 20 minutos de fala. Em ambos os casos, o tempo de teste foi de 2,5 minutos. O desempenho de cada sistema foi medido através do EER e do DCF min. Na primeira experiência, o sistema SVM-GSV obteve um DCF min de 0,02, o valor mais baixo dos três sistemas. Por outro lado, o sistema SVM-GLDS foi o que apresentou 21
o melhor EER com um valor na ordem dos 5,7%. O sistema GMM-UBM foi o que obteve pior classificação, com um EER de 7% e DCF min de 0,024. Na segunda experiência, onde cada orador foi treinado a partir de 20 minutos de fala, o sistema SVM-GSV obteve novamente o melhor desempenho a nível do DCF min ao apresentar um valor de 0,009, muito semelhante ao obtido pelo sistema SVM- GLDS. O sistema GMM-UBM voltou a apresentar o pior desempenho. Em ambos os casos, a fusão entre os três sistemas de reconhecimento conseguiu obter melhores resultados quando comparado com os sistemas individualmente. Nas Figuras 2.13 e 2.14 são apresentados os valores do EER e do DCF min obtidos pelos sistemas GMM-UBM, SVM-GLDS, SVM-GSV e fusão quando os modelos são treinados com 2,5 minutos e 20 minutos, respectivamente. SVM-GLDS GMM-UBM GMM-UBM+SVM-GLDS SVM-GSV SVM-GSV+SVM-GLDS GMM-UBM+SVM-GSV Figura 2.12: Valores do EER e do DCF min obtidos por diferentes sistemas de reconhecimento do orador (adaptado de [Fauve et al., 2007b]). 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 GMM-UBM SVM-GLDS SVM-GSV Fusão EER DCFmin Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5 minutos. 22
0,04 0,03 0,02 0,01 EER DCFmin 0 GMM-UBM SVM-GLDS SVM-GSV Fusão Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5 minutos. Os sistemas de reconhecimento do orador evoluíram muito desde as primeiras experiências, baseadas em associação de padrões, até aos mais recentes sistemas, que incluem um dos sistemas de classificação mais utilizado, caso do GMM-UBM, e o sistema estado da arte SVM-GSV. Ao longo do tempo também surgiu a necessidade de aumentar a complexidade do reconhecimento, tendo a identificação e a verificação do orador cada vez mais oradores para reconhecer. 23
24
Capítulo 3 Capítulo 3: Corpora 25
3.1. Introdução Neste capítulo são descritos os corpora usados para treino, desenvolvimento e teste. Dele fazem parte um total de 167 programas televisivos, recolhidos entre os anos 2000 e 2008, amostrados a 16kHz e com 16 bits por amostra. Estes corpus fornecem os recursos fundamentais para o desenvolvimento de um sistema de reconhecimento do orador. Os corpus usados neste trabalho são constituídos maioritariamente por programas noticiosos, nacionais e regionais, transmitidos pela televisão pública Portuguesa (RTP). Foram originalmente recolhidos para treino e teste de um sistema de reconhecimento de fala e detecção de tópicos [Neto et al., 2003, Meinedo et al., 2003, Meinedo et al., 2010], tendo sido posteriormente adicionados mais programas. Devido às audiências elevadas e notícias mais abrangentes, o Telejornal das 20 horas da RTP foi tido como referência, apresentado por isso uma maior influência. Todos os segmentos de um programa noticioso que contêm fala encontram-se identificados através do tempo de inicio, fim e do orador que o pronuncia, sendo possível desta forma identificar quais os segmentos que podem ser processados. Anotadores foram responsáveis por particionar todos os programas televisivos, identificando os intervalos que contêm música, fala, silêncio, vozes sobrepostas e ruído. Os corpus utilizados encontram-se divididos em 8 conjuntos, um para treino (Train), dois para desenvolvimento (Devel e Pilot) e cinco para teste (Eval, Jeval, 11march, Rtp07 e Rtp08). A Tabela 3.1 fornece uma visão geral dos corpus em termos de quantidade, duração, ano de exibição dos programas e finalidade dos conjuntos. Conjunto Ano Número Tempo Total Tempo Útil Finalidade Train 2000 99 60,15 h 46,48 h Treino Devel 2000 13 8,23 h 6,60 h Desenvolvimento Pilot 2000 11 5,55 h 4,79 h Desenvolvimento Eval 2001 12 5,96 h 4,53 h Teste Jeval 2001 14 15,52 h 13,52 h Teste 11march 2004 7 6,50 h 5,33 h Teste Rtp07 2007 6 6,22 h 4,79 h Teste Rtp08 2008 5 5,21 h 3,69 h Teste Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste. 26
Depois de removidos os jingles, os intervalos comerciais e os silêncios, é possível observar, através da Tabela 3.1, que existem aproximadamente 46 horas disponíveis para treino, 11 horas que podem ser usadas para ajustar o sistema, nomeadamente através de uma normalização, e 32 horas para avaliar o desempenho do sistema de verificação do orador. As secções seguintes descrevem em detalhe cada um destes conjuntos. 3.2. Corpus de Treino Este é o conjunto usado para treinar os diferentes modelos oradores. É composto inteiramente por 99 programas noticiosos transmitidos pela RTP entre Outubro a Novembro do ano 2000. A RTP foi responsável por recolher a informação nas suas instalações. A Tabela 3.2 mostra o conjunto, o ano em que foram transmitidos os programas, o tempo total e o tempo útil após a remoção dos jingles, intervalos comerciais e silêncio. Conjunto Ano Número Tempo Total Tempo Útil Train 2000 99 60,15 h 46,48 h Total 99 60,15 h 46,48 h Tabela 3.2: Conjunto de treino. Um resumo dos programas noticiosos que fazem parte deste corpus encontra-se na Tabela 3.3. O Telejornal da RTP é o programa dominante, com mais de metade da duração total. Este é um pormenor intencional, uma vez que é o programa noticioso principal e que melhor representa o tipo de programas analisados. Programa Número Tempo Total Tempo Útil Tipo 24 Horas 4 1,32 h 1,11 h Notícias das 24 horas Acontece 9 3,10 h 2,31 h Notícias culturais Jornal 2 7 4,90 h 4,06 h Notícias da noite Jornal da Tarde 8 7,93 h 6,22 h Notícias das 13 horas Notícias 8 0,62 h 0,53 h Notícias da manhã País Regiões 13 6,73 h 4,80 h Notícias nacionais País Regiões Lisboa 7 2,28 h 1,93 h Notícias locais RTP Economia 13 1,89 h 1,23 h Notícias financeiras Telejornal 30 31,38 h 24,29 h Notícias das 20 horas Total 99 60,15 h 46,48 h Tabela 3.3: Conjunto de programas presentes no corpus de treino. 27
Deste corpus fazem parte um total de aproximadamente 1366 oradores diferentes. 3.3. Corpus de Desenvolvimento Este conjunto permite melhorar o desempenho do sistema de verificação do orador através do ajuste dos parâmetros do sistema no cálculo dos resultados. Estes parâmetros incluem, por exemplo, os valores da média e do desvio padrão dos resultados obtidos pelos modelos oradores quando testados contra segmentos impostores. O corpus de desenvolvimento é composto por 24 programas noticiosos, gravados em Abril, Junho e Dezembro do ano 2000. Após a remoção dos jingles, intervalos publicitários e silêncio, o conjunto de desenvolvimento fica reduzido a cerca de 11 horas. Os valores do tempo total, tempo útil e o número de programas que fazem parte de cada conjunto encontram-se na Tabela 3.4. Conjunto Ano Número Tempo Total Tempo Útil Devel 2000 13 8,23 h 6,60 h Pilot 2000 11 5,55 h 4,79 h Total 24 13,78 h 11,39 h Tabela 3.4: Conjuntos de desenvolvimento. A Tabela 3.5 apresenta um sumário dos programas televisivos que fazem parte deste conjunto. Observa-se que a composição do corpus de desenvolvimento é similar ao corpus de treino com o Telejornal da RTP a ser novamente o programa com maior tempo útil. Programa Número Tempo Total Tempo Útil Tipo 24 Horas 3 86,96 min 73,67 min Notícias das 24 horas Acontece 2 40,46 min 31,58 min Notícias culturais Grande Reportagem 1 69,65 min 57,40 min Entrevistas políticas Jornal 2 2 95,65 min 79,90 min Notícias da noite Jornal da Tarde 2 130,77 min 103,27 min Notícias das 13 horas Notícias 2 18,69 min 16,90 min Notícias da manhã País Regiões 2 48,92 min 38,35 min Notícias nacionais País Regiões Lisboa 2 44,89 min 40,93 min Notícias locais Remate 1 7,53 min 6,81 min Notícias desportivas RTP Economia 3 20,38 min 14,40 min Notícias financeiras Telejornal 4 262,84 min 220,35 min Notícias das 20 horas Total 24 13,78 h 11,39 h Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento. 28
No corpus de desenvolvimento existem aproximadamente 418 oradores diferentes. 3.4. Corpus de Teste A finalidade do corpus de teste é avaliar o desempenho do sistema de reconhecimento do orador. Este corpus é composto por 44 programas noticiosos divididos entre 5 conjuntos (Eval, Jeval, 11march, Rtp07 e Rtp08) e contém programas gravados entre o ano 2001 e 2008. A forma com se encontram divididos os diferentes conjuntos e quais as suas características encontram-se na Tabela 3.6. Conjunto Ano Número Tempo Total Tempo Útil Eval 2001 12 5,96 h 4,53 h Jeval 2001 14 15,52 h 13,52 h 11march 2004 7 6,50 h 5,33 h Rtp07 2007 6 6,22 h 4,79 h Rtp08 2008 5 5,21 h 3,69 h Total 44 39,41 h 31,86 h Tabela 3.6: Conjuntos de teste. A Tabela 3.7 apresenta um sumário dos programas televisivos que fazem parte do corpus de teste. Programa Número Tempo Total Tempo Útil Tipo 24 Horas 2 38,60 min 32,12 min Notícias das 24 horas Acontece 1 17,84 min 12,63 min Notícias culturais Jornal 2 1 38,44 min 26,70 min Notícias da noite Jornal da Tarde 1 62,99 min 42,98 min Notícias das 13 horas Notícias 1 10,70 min 8,50 min Notícias da manhã País Regiões 1 33,78 min 25,42 min Notícias nacionais País Regiões Lisboa 1 20,20 min 17,64 min Notícias locais RTP Economia 2 20,00 min 13,79 min Notícias financeiras Telejornal 34 35,37 h 28,85 h Notícias das 20 horas Total 44 39,41 h 31,86 h Tabela 3.7: Conjunto de programas presentes no corpus de teste. No corpus de teste são possíveis identificar cerca de 1032 oradores diferentes. 29
30
Capítulo 4 Capítulo 4: Características 31
4.1. Introdução Neste capítulo é abordado qual o conjunto de características relevantes da voz utilizado no reconhecimento do orador e qual o pré-processamento realizado como forma de eliminar o silêncio entre palavras. No presente trabalho optou-se por usar os coeficientes de predição linear perceptiva, devido aos bons resultados apresentados anteriormente em tarefas de reconhecimento do orador. Foram ainda utilizados, para além dos coeficientes PLP, a energia e os parâmetros delta e delta-delta. 4.2. Pré-Processamento Áudio O módulo de pré-processamento áudio usado neste trabalho foi desenvolvido no L2F, INESC-ID, [Meinedo, 2008] e faz parte do sistema de reconhecimento da fala Audimus. Este módulo tem o objectivo de particionar e classificar segmentos áudio. Um diagrama do módulo de préprocessamento áudio é apresentado na Figura 4.1. Segmentação Áudio Classificação Áudio Classificação Orador Segmento Áudio Alterações Acústicas Fala Não Fala Condições Background Género Agrupamento Identificação Caracterização Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]). A segmentação áudio é responsável por detectar os locais onde o orador ou as condições de background se alteram. A classificação fala/não-fala determina se um segmento áudio contém fala ou não. As condições de background indicam se o background é silencioso, tem ruído ou música. A distinção entre oradores do género masculino ou feminino é feita pela detecção de género. O 32