Vozes de Celebridades

Tamanho: px
Começar a partir da página:

Download "Vozes de Celebridades"

Transcrição

1 Vozes de Celebridades Paulo Eduardo dos Santos Veloso Braga Dissertação para obtenção do Grau de Mestre em Engenharia Electrotécnica e de Computadores Júri: Presidente: Orientador: Co-Orientador: Vogal: Doutor Carlos Filipe Gomes Bispo Doutora Isabel Maria Martins Trancoso Doutor Hugo Daniel dos Santos Meinedo Doutor Jorge dos Santos Salvador Marques Outubro de 2011

2 ii

3 Agradecimentos Gostaria de agradecer às diversas pessoas que contribuíram para a realização desta Dissertação de Mestrado. Em primeiro lugar quero agradecer à Professora Isabel Trancoso pela sua orientação, conselhos e oportunidade de realizar este trabalho. Agradeço também ao Hugo Meinedo por toda a ajuda, colaboração e disponibilidade ao longo da realização deste trabalho que me permitiram ultrapassar algumas dificuldades. Gostaria também de agradecer a todos do L2F do INESC-ID, em especial ao Alberto Abad, pela ajuda e disponibilidade sempre que necessário. Por fim, também gostaria de agradecer à minha namorada e família por toda a motivação e apoio. iii

4 iv

5 Resumo Esta dissertação descreve um sistema de verificação do orador independente do texto utilizado para encontrar vozes de celebridades em programas noticiosos televisivos. Dois classificadores diferentes foram treinados e testados com segmentos manualmente identificados por anotadores. Nestas condições, o classificador SVM-GSV obteve um melhor desempenho do que o classificador GMM- UBM, particularmente para segmentos de maior duração. Devido à diferença de desempenho para segmentos de menor e maior duração, foi criado o sistema GMM-UBM+SVM-GSV que classifica um segmento através de um dos dois classificadores, dependendo da duração do segmento de teste. Este sistema foi utilizado para encontrar oradores a identificar em programas noticiosos televisivos recentes, onde os segmentos foram identificados automaticamente por um módulo de Pré- Processamento Áudio. O desempenho do sistema GMM-UBM+SVM-GSV foi menor, mas após alguns ajustamentos foi possível melhorar os resultados obtidos. O resultados são integrados no sistema de monitorização de média existente e apresentados numa página de internet, onde é possível visualizar os vídeos dos segmentos atribuídos a cada orador identificado pelo sistema. Devido às diferenças existentes entre o tempo de treino dos diferentes oradores e a duração dos segmentos de teste, existe uma maior dificuldade neste trabalho quando comparado com os tradicionais sistemas de verificação do orador, onde os modelos oradores são treinados com o mesmo tempo de treino e os segmentos de teste têm a mesma duração. Palavras-chave Reconhecimento do Orador Verificação do Orador Independente do Texto Vozes de Celebridades Modelos de Misturas Gaussianas Máquina de Suporte Vectorial Supervector Programas Noticiosos v

6 vi

7 Abstract This dissertation described a text-independent speaker verification system applied to finding voices of well-known persons in broadcast news shows. Two different classifiers were trained and tested with segments manually defined by annotators. In these conditions, the SVM-GSV classifier performed better than the GMM-UBM one, particularly for longer segments. The performance difference for short and long segments led us to create a GMM-UBM+SVM-GSV system which classifies a test segment using one of two classifiers, depending on the duration of the test segment. This system was used to identify target speakers in recent news shows, for which segments were automatically defined by an Audio Pre-Processing module. The performance of the GMM-UBM+SVM-GSV system was lower, which led to new successful experiments with further tuning. The results obtained are integrated into the existing media monitoring system and presented in a web page, where it is possible to view a video of each segment assigned to each speaker identified by the system. Due to differences between each speaker training time and duration of test segments, there is greater difficulty in this task when compared to traditional speaker verification systems, where the speaker models are trained with same trained time and test segments have the same duration. Keywords Speaker Recognition Text-independent Speaker Verification Celebrity Voices Gaussian Mixture Models Support Vector Machines Supervector News Shows vii

8 viii

9 Índice Agradecimentos... iii Resumo... v Abstract... vii Índice... ix Lista de Figuras... xi Lista de Tabelas... xiii Lista de Acrónimos... xv Capítulo 1: Introdução Enquadramento Objectivos e Contribuições Organização...5 Capítulo 2: Sistema de Reconhecimento do Orador Introdução Pré-Processamento Áudio Extracção de Características Sistemas de Classificação Normalização Normalização Z Normalização T Normalização ZT Métricas Curva DET EER DCF min Estado da Arte Capítulo 3: Corpora Introdução Corpus de Treino Corpus de Desenvolvimento Corpus de Teste Capítulo 4: Características Introdução ix

10 4.2. Pré-Processamento Áudio Coeficientes PLP Capítulo 5: Classificadores Introdução Propriedades do GMM-UBM Propriedades do SVM-GSV Capítulo 6: Resultados Corpora Treino Desenvolvimento Teste Avaliação do sistema GMM-UBM Descrição Normalização Resultados Avaliação do sistema SVM-GSV Descrição Normalização Resultados Comparação entre os sistemas GMM-UBM e SVM-GSV Avaliação do sistema GMM-UBM+SVM-GSV Descrição Resultados Capítulo 7: Interface Web Introdução Descrição Corpora Resultados Capítulo 8: Conclusões e Trabalho Futuro Conclusões Trabalho Futuro Referências x

11 Lista de Figuras Figura 1.1: Diferentes áreas do processamento de fala....3 Figura 2.1: Sistema genérico de reconhecimento do orador....8 Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) Figura 2.3: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após normalização Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste Figura 2.8: Exemplo de uma curva DET Figura 2.9: Exemplo de uma curva DET com o valor do DCF min Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM (adaptado de [Hasan and Hansen, 2010]) Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de [Hasan and Hansen, 2010]) Figura 2.12: Valores do EER e do DCF min obtidos por diferentes sistemas de reconhecimento do orador (adaptado de [Fauve et al., 2007b]) Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5 minutos Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5 minutos Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]) Figura 5.1: Representação de um modelo de misturas Gaussianas Figura 5.2: Histograma de um único coeficiente extraído se um segmento de fala Figura 5.3: Exemplo de um GMM Figura 5.4: Treino do UBM com todos os dados de treino Figura 5.5: Treino de UBMs individuais e posterior combinação Figura 5.6: Método de adaptação de um GMM do orador (adaptado de [Reynolds, 1995] ) a) Modelo do UBM e características do orador b) GMM do orador obtido por adaptação Figura 5.7: Sistema de reconhecimento com K modelos impostores Figura 5.8: Sistema de reconhecimento com o UBM como único modelo impostor Figura 5.9: Conceito geral do treino de um classificador xi

12 Figura 5.10: Dados de treino separados por um hiperplano de margem máxima Figura 5.11: Mapeamento não linear realizado pelo classificador SVM Figura 5.12: Conceito de um supervector GMM (adaptado de [Campbell et al., 2006b]) Figura 5.13: Estrutura de um sistema SVM-GSV Figura 6.1: Distribuição de resultados dos modelos oradores quando testados com segmentos autênticos (vermelho) e segmentos impostores (azul) Figura 6.2: Curva DET do sistema GMM-UBM Figura 6.3: Distribuição de resultados dos modelos oradores quando testados com segmentos autênticos (vermelho) e segmentos impostores (azul) Figura 6.4: Curva DET do sistema SVM-GSV Figura 6.5: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV em função da duração dos segmentos impostores Figura 6.6: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV em função da duração dos segmentos autênticos Figura 6.7: Distribuição de resultados dos modelos oradores quando testados com segmentos autênticos (vermelho) e segmentos impostores (azul) Figura 6.8: Comparação das curva DET dos sistemas GMM-UBM, SVM-GSV Figura 6.9: EER e DCF mínimo dos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV Figura 7.1: Distribuição de resultados dos modelos oradores quando testados com os segmentos autênticos (vermelho) e segmentos impostores (azul) Figura 7.2: Curva DET do sistema GMM-UBM+SVM-GSV Figura 7.3: Página HTML com os segmentos pertencentes a cada orador xii

13 Lista de Tabelas Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste Tabela 3.2: Conjunto de treino Tabela 3.3: Conjunto de programas presentes no corpus de treino Tabela 3.4: Conjuntos de desenvolvimento Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento Tabela 3.6: Conjuntos de teste Tabela 3.7: Conjunto de programas presentes no corpus de teste Tabela 6.1: Oradores treinados e respectivo tempo de treino Tabela 6.2: Número e duração média dos segmentos dos oradores Tabela 6.3: Média e desvio padrão de cada modelo orador para o sistema GMM-UBM Tabela 6.4: Média e desvio padrão dos resultados dos segmentos impostores Tabela 6.5: Média e desvio padrão dos resultados dos segmentos autênticos Tabela 6.6: Média dos resultados obtidos em função da duração dos segmentos impostores Tabela 6.7: Média dos resultados obtidos em função da duração dos segmentos autênticos Tabela 6.8: Média e desvio padrão de cada modelo orador para o sistema SVM-GSV Tabela 6.9: Média e desvio padrão dos resultados dos segmentos impostores Tabela 6.10: Média e desvio padrão dos resultados dos segmentos impostores Tabela 6.11: Média dos resultados obtidos em função da duração dos segmentos impostores Tabela 6.12: Média dos resultados obtidos em função da duração dos segmentos autênticos Tabela 6.13: Resultados médios dos sistemas GMM-UBM e SVM-GSV para segmentos autênticos. 74 Tabela 6.14: Média e desvio padrão das distribuições de resultados impostores obtidos pelos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV Tabela 6.15: Média e desvio padrão das distribuições de resultados autênticos obtidos pelos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV Tabela 6.16: Média e desvio padrão dos resultados dos segmentos impostores Tabela 6.17: Média e desvio padrão dos resultados dos segmentos autênticos Tabela 6.18: Média dos resultados obtidos em função da duração dos segmentos impostores Tabela 6.19: Média dos resultados obtidos em função da duração dos segmentos autênticos Tabela 7.1: Conjunto de programas noticiosos analisados Tabela 7.2: Número e duração média dos segmentos após o APP Tabela 7.3: Número e duração média de todos os segmentos obtidos após concatenação Tabela 7.4: Número e duração média dos segmentos autênticos obtidos após concatenação Tabela 7.5: Média e desvio padrão dos resultados dos segmentos impostores Tabela 7.6: Média e desvio padrão dos resultados dos segmentos autênticos xiii

14 Tabela 7.7: EER e DCF mínimo dos programas noticiosos analisados Tabela 7.8: Desempenho dos oradores presentes no programa 2011_04_04-Telejornal Tabela 7.9: Desempenho dos modelos oradores presentes no programa 2011_05_06-Telejornal Tabela 7.10: Desempenho dos modelos oradores presentes no programa 2011_05_12-Telejornal Tabela 7.11: Desempenho dos modelos oradores presentes no programa 2011_05_25-Telejornal xiv

15 Lista de Acrónimos ADN DET DCF EM ERR FN FP GLDS GMM GSL GSV HMM HTML KL L2F RASTA MFCC NIST PLP RN SVM UBM VQ XML Ácido desoxirribonucleico Detection Error Trade-off Detection Cost Function Expectation Maximization Equal Error Rate Falsos negativos Falsos positivos Generalized Linear Discriminant Sequence Kernel Gaussian Mixture Model Gaussian Supervector Linear Gaussian Supervector Hidden Markov Model HyperText Markup Language Kullback-Leibler Laboratório de sistemas de Língua Falada Logaritmic Relative Spectral Transform Mel Frequency Cepstral Coefficients National Institute of Standards and Technology Perceptual Linear Predictive Redes Neuronais Support Vector Machine Universal Background Model Vector Quantization Extended Markup Language xv

16 xvi

17 Capítulo 1 Capítulo 1: Introdução 1

18 1.1. Enquadramento Com o aumento das aplicações que tiram partido do recente desenvolvimento na área das telecomunicações e da internet, surge também o aumento da necessidade de reconhecer uma pessoa através das suas características físicas como forma de a identificar unicamente. Este interesse acontece em diferentes áreas do reconhecimento, tais como: controlo de acesso a sistemas informáticos [Naik and Doddington, 1987], autenticação para chamadas de longa distância ou de acesso ao banco [Naik et al., 1989], respostas personalizadas por parte de atendedores automáticos [Schmandt and Arons, 1984], reconhecimento automático de oradores em grandes quantidades de ficheiros gravados [Wilcox et al., 1994], aplicações forenses [Campbell et al., 2005], etc. A voz é uma das características que pode ser usada na identificação de um ser humano uma vez que cada pessoa possui características únicas [Doddington, 1985]. Outras características biométricas, por princípio pessoais e intransmissíveis, podem também ser usadas para identificar ou autenticar uma pessoa, nomeadamente, a impressão digital, a retina, a face, a assinatura escrita ou o ADN. Em qualquer destes casos, a identificação é realizada através da comparação das características recolhidas com outras armazenadas previamente. Uma forma de aumentar a segurança de uma aplicação que requer a autenticação de uma pessoa através da sua voz passa por implementar outros sistemas de segurança, tais como, a utilização de uma senha ou a identificação de outras características biométricas. Numa sociedade em que a identificação de uma pessoa se torna cada vez mais necessária e imprescindível, a comunidade científica tem procurado nos últimos anos criar sistemas de reconhecimento de oradores cada vez mais rápidos e com desempenhos superiores. No entanto, ainda existem problemas por resolver nesta área. Um sinal de voz é geralmente composto por palavras que juntas formam a frase que se pretende transmitir, no entanto, informações acerca da identidade do orador também podem ser analisadas. É precisamente na extracção e análise das características presentes num segmento de fala que se baseia o reconhecimento do orador. Diversas variações podem ocorrer na voz de um orador quando este se encontra em diferentes situações ou estados, provocando alterações que dificultam a tarefa de verificação do orador [Kenny et al., 2007]. Assim, o desempenho de um sistema de reconhecimento do orador pode variar de acordo com: Estado de saúde, estado emocional e ambiente; 2

19 Fisiologia, língua e dialecto/sotaque; Tipo de fala: leitura ou espontânea, formal ou casual; Distorções acústicas devido a: o Meios de gravação diferentes; o Meios de transmissão diferentes; o Ruídos aditivos. O processamento de fala encontra-se dividido em três grandes áreas: a síntese, a codificação e o reconhecimento. A síntese de voz é a produção artificial de voz humana, geralmente a partir de texto ou de uma representação linguística simbólica. A codificação é uma técnica que lida com a capacidade de codificar sinais de fala que permitam, por exemplo, no caso de uma comunicação telefónica, obter uma boa qualidade da fala para débitos binários baixos. Por fim, o reconhecimento é a área responsável por interpretar a fala humana, como por exemplo para transcrição, por determinar a idioma natural de uma pessoa e por verificar a identidade de um orador através da sua voz. A Figura 1.1 apresenta as áreas mais importantes do processamento de fala, com destaque para o reconhecimento do orador. Processamento de Fala Sintese Reconhecimento Codificação Fala Orador Idioma Identificação Verificação Figura 1.1: Diferentes áreas do processamento de fala. Dependendo da aplicação, o reconhecimento do orador encontra-se geralmente dividido em duas áreas: identificação e verificação. Na identificação, o objectivo é determinar a quem, entre um grupo de oradores conhecidos, pertence o segmento áudio analisado. Este caso, em conjunto fechado, acontece quando apenas oradores de um grupo conhecido podem ser identificados. A segunda vertente, a verificação, consiste em determinar se um segmento áudio pertence ou não a um orador. 3

20 Este problema, em conjunto aberto, ocorre quando é necessário distinguir se um segmento áudio pertence a um orador a identificar pelo sistema ou se terá sido pronunciado por alguém de um conjunto de oradores não reconhecidos. Um sistema de reconhecimento do orador pode ainda ser dependente ou independente do texto, tendo em conta o tipo de dados usados para treino e teste. No caso de ser independente do texto, significa que frases diferentes das usadas para treino podem ser usadas para teste. Os sistemas dependentes do texto [Hébert, 2008] estão limitados ao tipo de frases que podem ser pronunciadas pelos oradores (tal como palavras-chave, dígitos, frases pré-determinadas, etc.) e por isso as frases usadas para treino devem ser idênticas às usadas para teste [Higgins et al., 1991]. A verificação na vertente independente do texto é a base da generalidade dos sistemas de reconhecimento do orador tendo uma dificuldade adicional devido ao desafio de não controlar o comportamento do orador Objectivos e Contribuições Esta dissertação tem como objectivo implementar um sistema de verificação do orador independente do texto de forma a encontrar vozes de celebridades em programas noticiosos televisivos. Dois classificadores diferentes foram treinados e testados, nomeadamente o Gaussian Mixture Model Universal Background Model (GMM-UBM) e o Support Vector Machine Gaussian Supervector (SVM-GSV), recorrendo à extracção dos coeficientes Perceptual Linear Predictive (PLP) dos segmentos que contêm fala. Os classificadores, GMM-UBM e SVM-GSV, começam por ser treinados e testados com segmentos manualmente identificados por anotadores. É realizada uma comparação entre os resultados obtidos pelos dois classificadores de forma a obter um sistema que combine os resultados de ambos e apresente um melhor desempenho. Este sistema, GMM-UBM+SVM-GSV, é usado para pesquisar por segmentos de fala proferidos por celebridades em programas noticiosos recolhidos recentemente pelo Laboratório de sistemas de Língua Falada (L2F), INESC-ID, onde os segmentos são identificados automaticamente por um módulo de Pré-Processamento Áudio. Os resultados são apresentados numa página de internet onde é possível visualizar os vídeos dos segmentos atribuídos ao oradores identificados. Os resultados do sistema de reconhecimento do orador independente do texto desenvolvido nesta dissertação podem ser integrados no sistema de monitorização de média existente capaz de identificar e apresentar informação específica contida em programas noticiosos televisivos. 4

21 1.3. Organização A dissertação encontra-se organizada da seguinte forma: O capítulo 2 apresenta os conceitos dos sistemas de reconhecimento do orador e uma visão geral do estado da arte. O capítulo 3 descreve os corpora disponíveis para treino, desenvolvimento e teste dos sistemas de reconhecimento do orador desenvolvidos. O capítulo 4 incide sobre o pré-processamento áudio e as características extraídas dos segmentos que contêm fala, utilizadas para caracterizar a voz de um orador. O capítulo 5 explica detalhadamente os classificadores, GMM-UBM e SVM-GSV, e a sua aplicação no reconhecimento do orador. O capítulo 6 descreve os corpora utilizados para treino, desenvolvimento e teste, a implementação dos sistemas de reconhecimento do orador, os resultados obtidos e a comparação entre os mesmos. Apresenta-se ainda um novo sistema de reconhecimento, capaz de obter melhores resultados dependendo da duração do segmento testado. O capítulo 7 apresenta os resultados obtidos pelo sistema de reconhecimento do orador desenvolvido quando testado com programas noticiosos televisivos recentes e a integração desses resultados numa página de internet. Finalmente, o capítulo 8 apresenta as conclusões e sugestões para trabalhos futuros. 5

22 6

23 Capítulo 2 Capítulo 2: Sistema de Reconhecimento do Orador 7

24 2.1. Introdução Um sistema de reconhecimento do orador é geralmente constituído pelos seguintes componentes principais: extracção de características, sistema de classificação e decisão. A Figura 2.1 apresenta o esquema genérico de um sistema de reconhecimento do orador. Pré- Processamento Áudio Extracção de Características Sistema de Classificação Normalização Aceita ou Rejeita Sinal de Fala Modelo Orador Modelos Impostores Figura 2.1: Sistema genérico de reconhecimento do orador. O sistema começa por extrair as características relevantes do segmento áudio que contém fala. De seguida, as características extraídas são comparadas com o modelo orador e com os modelos impostores anteriormente treinados através de um sistema de classificação. Por fim, o resultado é normalizado e o segmento é classificado como um segmento autêntico, pertencente ao orador a identificar, ou como um segmento impostor, pertencente a um outro orador Pré-Processamento Áudio Quando se pretende extrair as características de um sinal de fala apenas se devem processar as frames que contêm voz, sendo necessário ignorar o silêncio existente no inicio e no final do segmento, assim como o silêncio existente entre cada palavra. Da mesma forma, quando existem outros sons, como ruído de fundo ou música, que tornem a voz imperceptível, torna-se necessário excluir estas frames dos restantes processos. O pré-processamento áudio é efectuado antes da extracção de características como forma de identificar as frames necessárias para o processamento a realizar e excluir as frames que devem ser ignoradas. De uma forma mais geral, o pré-processamento áudio pode também ser utilizado para particionar e classificar um conjunto de segmentos áudio que posteriormente torne mais fácil o processo de reconhecimento do orador nesses segmentos. O particionamento pode ser realizado tendo em conta 8

25 alterações de background, como barulho ou música, ou a detecção de fala ou silêncio. A classificação corresponde a identificar se o orador de um determinado segmento é masculino ou feminino e a indicar quais os segmentos proferidos pelo mesmo orador Extracção de Características O objectivo da extracção de características de um sinal é criar uma nova representação num outro espaço ou dimensão, que pode ser usada para armazenamento, transmissão, síntese ou reconhecimento. No caso de um segmento áudio que contenha fala, são inúmeras as características que podem ser extraídas. Estas características podem ser usadas em diferentes tipos de reconhecimento, apresentando cada característica um melhor ou pior desempenho dependendo da finalidade. Por exemplo, para a tarefa do reconhecimento do orador pode ser usada a frequência fundamental, pitch, ou a frequência das formantes, enquanto a energia ou a taxa de cruzamentos por zeros possibilita o reconhecimento das palavras ou concluir acerca da presença de silêncio. Procura-se que as características extraídas de um segmento de fala sejam fáceis de determinar, representem de forma eficiente a informação do orador, sejam estáveis ao longo do tempo e que não sejam influenciadas pelo ambiente em que foram produzidas. Algumas das características usadas na detecção de eventos áudio, tais como Perceptual Linear Predictive (PLP), Mel Frequency Cepstral Coefficients (MFCC) ou Logaritmic Relative Spectral Transform (RASTA), são também comuns na identificação ou verificação do orador. A análise e o processamento de sinal tentam de certa forma modelar o sistema auditivo humano retendo as propriedades necessárias. Este processo pode ser realizado através da introdução de um filtro de escala Mel, caso dos MFCC [Davis and Mermelstein, 1980], ou de um filtro de escala Bark, caso dos PLP [Hermansky, 1990]. Desta forma os coeficientes passam a ter em conta informação perceptiva Sistemas de Classificação O sistema de classificação é o componente mais importante de um sistema de reconhecimento do orador. A sua função é treinar os modelos oradores a partir das características extraídas de segmentos de fala proferidos pelos mesmos, para que mais tarde, seja possível realizar uma verificação dos padrões existentes entre as características extraídas de um segmento de teste e os modelos treinados de cada orador. O resultado obtido pelo sistema de classificação para um 9

26 determinado segmento de teste determina a verosimilhança existente entre as características do segmento e um modelo orador. Alguns dos modelos mais utilizados no reconhecimento do orador são os Gaussian Mixture Models, (GMMs), onde cada modelo orador é composto por um conjunto de funções de densidade de probabilidade Gaussianas, criadas de forma a modelar as várias classes fonéticas de um orador. Este sistema não tem em consideração a evolução temporal do sinal, pelo que é mais apropriado para sistemas de reconhecimento independentes do texto. No caso de os oradores serem reconhecidos com recurso a uma palavra-chave ou uma frase prédeterminada, é necessário utilizar um modelo que descreva as características variantes no tempo, como o Hidden Markov Model (HMM). As Redes Neuronais (RN) também podem ser utilizadas para modelar as características de um orador através de camadas com várias unidades ligadas entre si e com um determinado peso. Este sistema utiliza um conjunto de características para ajustar a rede neuronal de cada orador, que é depois utilizada como modelo. Por fim, os Support Vector Machines (SVMs) são classificadores recentemente adoptados no reconhecimento do orador e considerados um dos classificadores mais robustos. Esta popularidade deve-se à capacidade de classificar dados nunca analisados Normalização O resultado obtido pelo sistema de classificação necessita de ser normalizado antes de se verificar se o segmento testado pertence ou não a um orador a identificar pelo sistema. Este ajuste é necessário devido às diferenças existentes nas condições em que foi recolhido o material de treino e o de teste, possibilitando também a criação de um limiar de decisão do sistema independente do orador, capaz de classificar o segmento testado como segmento autêntico (pertencendo ao orador) ou segmento impostor (não pertencendo ao orador). O facto de existirem diferenças na duração dos segmentos testados, no tempo de treino de cada orador, no ruído ambiente ou na forma como são recolhidos os segmentos áudio nas fases de treino e de teste, provocam variações nos resultados que devem, através de uma normalização, ser minimizados. Considerando que um modelo orador é testado com segmentos autênticos e segmentos impostores, os resultados provenientes do sistema de classificação terão duas distribuições diferentes de 10

27 resultados. Cada modelo orador apresentará um limiar de decisão diferente capaz de separar as duas distribuições que minimizará os erros em zonas em que ambas as distribuições se encontram sobrepostas. A Figura 2.2 apresenta um exemplo dos limiares de decisão de dois modelos oradores, e e do sistema de reconhecimento do orador,, para as distribuições de resultados obtidas pelos dois modelos quando testados com segmentos autênticos e segmentos impostores, representadas na Figura 2.2 a tracejado e a cheio, respectivamente. É possível deduzir que ao adicionar mais resultados de modelos oradores diferentes, a variabilidade do limiar de decisão do sistema aumenta, introduzindo assim mais erros no sistema. Modelo Orador 1 Modelo Orador 2 Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado). Numa situação ideal, o limiar de decisão do sistema seria igual independentemente do número de oradores reconhecidos, reduzindo desta forma os erros do sistema. No entanto, esta situação é pouco provável devido às razões já apresentadas anteriormente. Ao aplicar uma normalização pretende-se que as distribuições dos resultados de todos os oradores fiquem com média e desvio padrão aproximados, possibilitando desta forma a optimização do limiar de decisão do sistema. A Figura 2.3 apresenta os resultados obtidos após ser aplicada uma técnica de normalização. 11

28 Modelo Orador 1 Modelo Orador 2 Figura 2.3: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após normalização. Verifica-se que depois de aplicada a normalização, as distribuições dos resultados de ambos os modelos apresentam uma média e um desvio padrão aproximados, com os limiares de decisão dos modelos oradores mais próximos entre si. Desta forma, a variabilidade do limiar de decisão do sistema diminui e consequentemente a sua taxa de erro. As normalizações mais comuns usadas do reconhecimento do orador são a normalização Z, a normalização T e a normalização ZT Normalização Z Na normalização Z [Li and Porter, 1988, Auckenthaler et al., 2000] é necessário testar o modelo orador contra um conjunto de N segmentos pertencentes a diferentes impostores, obtendo-se para o modelo orador uma distribuição de resultados impostores com média e desvio padrão. Estes valores são estimados para efectuar a normalização do resultado, obtido pelo teste do segmento contra o modelo orador. (2.1) 12

29 A Figura 2.4 apresenta um esquema da normalização Z durante a fase de teste. Segmento Teste Modelo Orador Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste. Esta normalização apresenta como vantagem o facto do valor da média e do desvio padrão da distribuição de resultados impostores poderem ser obtidos antes da realização dos testes Normalização T Baseada na estimação dos mesmos parâmetros da média e do desvio padrão de uma distribuição de resultados, a normalização T [Auckenthaler et al., 2000] difere da normalização Z ao usar os resultados obtidos por vários modelos impostores, ao invés dos resultados obtidos por vários segmentos impostores. Durante a fase de teste, os resultados obtidos por um conjunto de M modelos impostores para um segmento de teste caracterizam-se por terem uma distribuição com média e desvio padrão. O valor normalizado do segmento quando testado pelo modelo orador é calculado de acordo com os resultados obtidos pelos M modelos impostores. (2.2) A Figura 2.5 apresenta o diagrama de blocos da normalização T. Ao contrário do que acontece na normalização Z, a normalização T apenas permite calcular o valor da média e do desvio padrão durante a fase de teste, implicando por isso um tempo computacional mais elevado. 13

30 Segmento Teste y Modelo Orador Modelo Impostor... Modelo Impostor... Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste Normalização ZT A normalização ZT [Zheng et al., 2005] junta ambos os processos das normalizações anteriores, conseguindo por isso melhores resultados. Ainda antes da fase de teste, começa-se por calcular os resultados obtidos pelo modelo orador quando testado com N segmentos impostores. De seguida, os resultados são normalizados, através de uma normalização T, usando a média e o desvio padrão dos resultados obtidos por M modelos impostores quando testados com os mesmos N segmentos impostores. (2.3) (2.4) Desta forma, obtêm-se os resultados, de onde é possível estimar a média e o desvio padrão dos mesmos. O esquema da normalização ZT a realizar antes da fase de teste encontra-se na Figura

31 Segmento Impostor (1,, N) Modelo Orador Modelo Impostor... Modelo Impostor Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste. Durante a fase de teste, o segmento de teste y é testado no modelo orador e nos M modelos impostores, onde são obtidos e,,,, respectivamente. Novamente é realizada uma normalização T de onde se obtêm o resultado. Por fim, o resultado final normalizado é obtido recorrendo aos valores da média e o desvio padrão calculados anteriormente. (2.5) A Figura 2.7 apresenta um diagrama de blocos da normalização ZT durante a fase de teste. Segmento Teste y Modelo Orador Modelo Impostor... Modelo Impostor... Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste. 15

32 2.6. Métricas Dois tipos de erros ocorrem num sistema de verificação do orador, nomeadamente a não detecção e o falso alarme. O primeiro, não detecção ou falso negativo, ocorre quando um segmento autêntico não é reconhecido quando testado pelo modelo orador correspondente. O segundo, falso alarme ou falso positivo, acontece quando um segmento impostor ilude um modelo que não é o seu, sendo classificado como pertencendo ao orador. Ambos os erros dependem do limiar de decisão do sistema criado como separador para aceitar ou rejeitar um segmento testado. Com um limiar baixo, o sistema tende a aceitar todos os segmentos testados fazendo aumentar o número falsos positivos. Por outro lado, um limiar de decisão alto torna o sistema susceptível a mais falsos negativos e a poucos falsos positivos, existindo por isso uma maior dificuldade em detectar os segmentos autênticos. As taxas de falsos positivos (FP) e de falsos negativos (FN) são definidas como o ponto de operação do sistema e ditam o valor do limiar de decisão escolhido para modo de operação. Na prática, estas taxas de erro, falsos positivos e falsos negativos, correspondem à percentagem de erros que ocorrem na fase de teste e podem ser representadas por e, respectivamente Curva DET Uma vez que ambas as taxas são funções do limiar de decisão escolhido, é possível representar o desempenho do sistema através de um gráfico com em função de. A curva Detection Error Trade-off (DET) [Martin et al., 1997] conhecida como a característica de operação do sistema, é monótona e decrescente. Quanto melhor for o desempenho do sistema, mas perto da origem do gráfico se encontra a curva. Um exemplo de uma curva DET encontra-se na Figura

33 Falsos Negativos (em %) Falsos Positivos (em %) Figura 2.8: Exemplo de uma curva DET EER O EER, Equal Error Rate, é a métrica mais comum e simples de calcular num sistema de verificação de orador. Para obter o EER é necessário que o limiar de decisão do sistema escolhido iguale a taxa de FP com a taxa de FN, ou seja,. Quanto mais baixo for o EER melhor será o desempenho do sistema a separar os segmentos autênticos dos segmentos impostores. O valor do EER também pode ser obtido através da Figura 2.8 e corresponde à intercepção da curva DET com a recta x = y. Nesse exemplo, o limiar de decisão do sistema escolhido iria igualar ambas as taxas de erro com um valor de aproximadamente 8% DCF min O DCF min, Detection Cost Function é uma medida de erro utilizada pelo National Institute of Standards and Tecnology (NIST) nos várias provas realizadas que avaliam os mais recentes sistemas de reconhecimento do orador [NIST, 2010]. Este é um método de avaliação que permite atribuir diferentes custos aos dois tipos de erros existentes, criando uma média ponderada entre FP e os FN: 17

34 Falsos Negativos (em %) (2.6) Onde,, e. O facto de possibilitar que sejam atribuídos diferentes custos aos FP e aos FN torna possível que seja preferível não identificar correctamente um orador do que ser autenticado um impostor. Um exemplo de uma curva DET e do respectivo ponto de funcionamento do sistema que permite obter um determinado DCF min pode ser observado na Figura 2.9. Falsos Positivos (em %) Figura 2.9: Exemplo de uma curva DET com o valor do DCF min. No exemplo da Figura 2.9, o limiar de decisão do sistema é escolhido de forma a permitir uma taxa de falsos negativos de 28% e de falsos positivos de apenas 0,6% Estado da Arte O National Institute of Standards and Technology (NIST) é, para a comunidade científica, uma das principais referências nas pesquisas e nas últimas tecnologias utilizadas para o reconhecimento do orador. Desde 1996 que este instituto coordenada e realiza uma prova com regras bem definidas, 18

35 onde os participantes são convidados a testarem os seus métodos utilizando o mesmo conjunto áudio disponibilizado pelo próprio NIST. Mais de 40 pesquisadores têm desde então participado nesta avaliação, sendo ainda convidados novos pesquisadores e universidades todos os anos. Estas avaliações são uma importante contribuição para a direcção dos esforços de investigação na área do reconhecimento do orador independente do texto. Têm por isso, como objectivo global, o avanço da tecnologia utilizada, medir o estado da arte e encontrar as abordagens algorítmicas mais promissoras. É por este motivo que a maior parte das experiências realizadas na área do reconhecimento do orador tentam aproximar-se da melhor forma das provas realizadas pelo NIST. Em [Schmidt-Nilsen and Crystal, 2000] é realizada uma experiência de verificação do orador que compara o desempenho do ser humano com alguns sistemas de reconhecimento. Uma vez que os computadores e os humanos têm diferentes limites e capacidades, como a memória ou a resistência à fadiga, foi necessário realizar alguns ajustes nos testes realizados aos humanos. Os resultados obtidos mostraram que os humanos conseguem um EER de 8%, igualando o melhor sistema de reconhecimento usado nas avaliações do NIST da altura. Outros sistemas típicos de reconhecimento do orador obtêm taxas na ordem dos 12% a 14%. O desempenho dos humanos ainda se mostra ser mais robusto em gravações com pior qualidade. Um dos sistemas de reconhecimento do orador mais usado e estudado actualmente é o sistema Gaussian Mixture Model (GMM). O artigo [Reynolds, 1995] introduziu os modelos de misturas Gaussianas usados no reconhecimento do orador na vertente independente do texto. Neste classificador, as componentes Gaussianas de um GMM são usadas para modelar as características individuais de um orador. Mais tarde, em [Reynolds et al., 2000] os modelos de misturas Gaussianas dos oradores passaram a ser adaptados de um Universal Background Model (UBM). Este método, mais eficiente computacionalmente, apresenta uma melhoria nos resultados [Bimbot et al., 2004]. Nesta experiência, desenvolvida de acordo com as regras definidas pelo NIST, foi utilizado o corpus de 1999 disponibilizado pelo NIST. Foram treinados 11 modelos oradores com 120 segundos e testados contra segmentos com tamanho entre os 0,5 e os 60 segundos. O UBM, composto por 2048 misturas Gaussianas, foi treinado a partir de todo o conjunto de treino disponível. O EER obtido pelo sistema foi de aproximadamente 10%. O estudo [Hasan and Hansen, 2010] foca-se em detalhe no desempenho de um sistema de verificação do orador quando os dados presentes no UBM do sistema GMM são seleccionados e alterados de diferentes maneiras, incluído na quantidade de dados de treino e no número de oradores presentes. Provou-se experimentalmente que aumentar gradualmente o número de oradores presentes no UBM, sem aumentar o tempo total de treino, origina um sistema com um desempenho melhor, como apresenta a Figura Os oradores foram escolhidos aleatoriamente e o EER foi calculado através da média de cinco experiencias independentes. Ainda no mesmo estudo, verificouse que se os dados de treino do UBM mantiverem a mesma diversidade, então apenas uma parte dos 19

36 EER EER dados são suficientes para treinar o UBM, como mostra a Figura Neste teste, o UBM foi treinado apenas com os primeiros segundos de cada segmento. Número de oradores no UBM Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM (adaptado de [Hasan and Hansen, 2010]). Dados de Treino do UBM (h) Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de [Hasan and Hansen, 2010]). No mesmo ano em que Reynolds gera os modelos dos oradores a partir de um UBM, um outro método, [Wan and Campell, 2000], testa a performance dos Support Vector Machines (SVMs) na tarefa da verificação do orador. Para os autores, esta abordagem parece indicada na verificação do orador devido a natureza binária das decisões do classificador. Nesta experiência foram seleccionados 138 oradores da base de dados de YOHO [Campbell, 1995], sendo que 69 oradores foram seleccionados para treino e teste, enquanto os segmentos dos restantes oradores apenas foram usados para teste. Na fase de treino foram criados 69 modelos de oradores, onde cada modelo foi treinado contra os restantes 68 oradores. A utilização de SVM na verificação do orador conseguiu um EER de 0,59%, um valor aproximado mas não tão bom como os resultados obtidos pelo sistema GMM que apresentou um EER entre os 0,5% e os 0,6%. Como já afirmado anteriormente, esta experiência foi realizada com a base de dados de YOHO, que apenas contém palavras-chave, com por exemplo , proferidas pelos oradores num ambiente controlado. 20

37 Um dos aspectos importantes na utilização dos SVM é a escolha do kernel usado para separar os dados de entrada em classes através de um hiperplano. Em [Campbell et al., 2006a] é introduzido um novo kernel, denominado Generalized Linear Discriminant Sequence Kernel (GLDS) e comparado com o sistema GMM. Em [Campbell et al., 2006b], é apresentada uma nova aplicação das SVM com um kernel linear através da utilização de Supervectores formados a partir das médias das misturas Gausianas dos GMM, denominados por isso de Gaussian Supervectores (GSV) ou Gaussian Supervector Linear (GSL). Os resultados foram obtidos utilizando o corpus de 2005 disponibilizado pelo NIST, com cada modelo orador, constituído por 2048 misturas Gaussianas, a ser treinado com 20 minutos e testado com segmentos de 2,5 minutos. O EER do sistema SVM-GSV foi de 4%, enquanto para os mesmos segmentos de treino e teste o sistema GMM-UBM obteve um EER de 6%. Desde 2004 que uma das condições impostas pelo NIST para participação nas provas está relacionada com a obtenção do desempenho dos sistemas de reconhecimento do orador em conversas telefónicas entre duas pessoas com duração aproximada de 5 minutos. Estas condições têm por isso recebido mais atenção por parte da comunidade científica. No entanto, em situações reais, a quantidade de fala disponível é geralmente menor, o que leva a sejam feitos estudos como em [Fauve et al., 2007a] apenas com 10 segundos de treino e teste, em que se verificam as limitações e capacidades de diversos métodos de adaptação de modelos. Os resultados mostram também que a duração do segmento que contém fala é um importante factor no desempenho de um sistema de reconhecimento. A evolução verificada no estado da arte do reconhecimento do orador pode ser consultada em [Fauve et al., 2007b] onde algumas técnicas de verificação do orador são comparadas: GMM-UBM, SVM- GSV e SVM-GLDS. Os testes foram realizados na plataforma ALIZE [Bonastre et al., 2005], um software open source, com conjuntos de treino e teste iguais. No caso dos sistemas de fusão, os pesos aplicados foram iguais. Os resultados obtidos encontram-se na Figura É possível observar que o sistema SVM-GSV obteve o EER e DCF min mais baixos tendo mesmo superado sistemas de fusão entre os diferentes métodos de reconhecimento. Outra comparação entre sistemas de reconhecimento encontra-se descrita em [Reynolds and Campbell, 2007] onde foram testados os mesmos sistemas de reconhecimento, GMM-UBM, SVM- GLDS e SVM-GSV, mas com recurso ao áudio disponibilizado pelo NIST. Foi ainda calculado o desempenho da fusão entre os três sistemas. Realizaram-se duas experiências distintas, com diferentes condições de treino. Na primeira experiência utilizaram-se 2,5 minutos para treino de cada orador, enquanto na segunda experiência cada modelo orador foi treinado com 20 minutos de fala. Em ambos os casos, o tempo de teste foi de 2,5 minutos. O desempenho de cada sistema foi medido através do EER e do DCF min. Na primeira experiência, o sistema SVM-GSV obteve um DCF min de 0,02, o valor mais baixo dos três sistemas. Por outro lado, o sistema SVM-GLDS foi o que apresentou 21

38 o melhor EER com um valor na ordem dos 5,7%. O sistema GMM-UBM foi o que obteve pior classificação, com um EER de 7% e DCF min de 0,024. Na segunda experiência, onde cada orador foi treinado a partir de 20 minutos de fala, o sistema SVM-GSV obteve novamente o melhor desempenho a nível do DCF min ao apresentar um valor de 0,009, muito semelhante ao obtido pelo sistema SVM- GLDS. O sistema GMM-UBM voltou a apresentar o pior desempenho. Em ambos os casos, a fusão entre os três sistemas de reconhecimento conseguiu obter melhores resultados quando comparado com os sistemas individualmente. Nas Figuras 2.13 e 2.14 são apresentados os valores do EER e do DCF min obtidos pelos sistemas GMM-UBM, SVM-GLDS, SVM-GSV e fusão quando os modelos são treinados com 2,5 minutos e 20 minutos, respectivamente. SVM-GLDS GMM-UBM GMM-UBM+SVM-GLDS SVM-GSV SVM-GSV+SVM-GLDS GMM-UBM+SVM-GSV Figura 2.12: Valores do EER e do DCF min obtidos por diferentes sistemas de reconhecimento do orador (adaptado de [Fauve et al., 2007b]). 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 GMM-UBM SVM-GLDS SVM-GSV Fusão EER DCFmin Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5 minutos. 22

39 0,04 0,03 0,02 0,01 EER DCFmin 0 GMM-UBM SVM-GLDS SVM-GSV Fusão Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5 minutos. Os sistemas de reconhecimento do orador evoluíram muito desde as primeiras experiências, baseadas em associação de padrões, até aos mais recentes sistemas, que incluem um dos sistemas de classificação mais utilizado, caso do GMM-UBM, e o sistema estado da arte SVM-GSV. Ao longo do tempo também surgiu a necessidade de aumentar a complexidade do reconhecimento, tendo a identificação e a verificação do orador cada vez mais oradores para reconhecer. 23

40 24

41 Capítulo 3 Capítulo 3: Corpora 25

42 3.1. Introdução Neste capítulo são descritos os corpora usados para treino, desenvolvimento e teste. Dele fazem parte um total de 167 programas televisivos, recolhidos entre os anos 2000 e 2008, amostrados a 16kHz e com 16 bits por amostra. Estes corpus fornecem os recursos fundamentais para o desenvolvimento de um sistema de reconhecimento do orador. Os corpus usados neste trabalho são constituídos maioritariamente por programas noticiosos, nacionais e regionais, transmitidos pela televisão pública Portuguesa (RTP). Foram originalmente recolhidos para treino e teste de um sistema de reconhecimento de fala e detecção de tópicos [Neto et al., 2003, Meinedo et al., 2003, Meinedo et al., 2010], tendo sido posteriormente adicionados mais programas. Devido às audiências elevadas e notícias mais abrangentes, o Telejornal das 20 horas da RTP foi tido como referência, apresentado por isso uma maior influência. Todos os segmentos de um programa noticioso que contêm fala encontram-se identificados através do tempo de inicio, fim e do orador que o pronuncia, sendo possível desta forma identificar quais os segmentos que podem ser processados. Anotadores foram responsáveis por particionar todos os programas televisivos, identificando os intervalos que contêm música, fala, silêncio, vozes sobrepostas e ruído. Os corpus utilizados encontram-se divididos em 8 conjuntos, um para treino (Train), dois para desenvolvimento (Devel e Pilot) e cinco para teste (Eval, Jeval, 11march, Rtp07 e Rtp08). A Tabela 3.1 fornece uma visão geral dos corpus em termos de quantidade, duração, ano de exibição dos programas e finalidade dos conjuntos. Conjunto Ano Número Tempo Total Tempo Útil Finalidade Train ,15 h 46,48 h Treino Devel ,23 h 6,60 h Desenvolvimento Pilot ,55 h 4,79 h Desenvolvimento Eval ,96 h 4,53 h Teste Jeval ,52 h 13,52 h Teste 11march ,50 h 5,33 h Teste Rtp ,22 h 4,79 h Teste Rtp ,21 h 3,69 h Teste Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste. 26

43 Depois de removidos os jingles, os intervalos comerciais e os silêncios, é possível observar, através da Tabela 3.1, que existem aproximadamente 46 horas disponíveis para treino, 11 horas que podem ser usadas para ajustar o sistema, nomeadamente através de uma normalização, e 32 horas para avaliar o desempenho do sistema de verificação do orador. As secções seguintes descrevem em detalhe cada um destes conjuntos Corpus de Treino Este é o conjunto usado para treinar os diferentes modelos oradores. É composto inteiramente por 99 programas noticiosos transmitidos pela RTP entre Outubro a Novembro do ano A RTP foi responsável por recolher a informação nas suas instalações. A Tabela 3.2 mostra o conjunto, o ano em que foram transmitidos os programas, o tempo total e o tempo útil após a remoção dos jingles, intervalos comerciais e silêncio. Conjunto Ano Número Tempo Total Tempo Útil Train ,15 h 46,48 h Total 99 60,15 h 46,48 h Tabela 3.2: Conjunto de treino. Um resumo dos programas noticiosos que fazem parte deste corpus encontra-se na Tabela 3.3. O Telejornal da RTP é o programa dominante, com mais de metade da duração total. Este é um pormenor intencional, uma vez que é o programa noticioso principal e que melhor representa o tipo de programas analisados. Programa Número Tempo Total Tempo Útil Tipo 24 Horas 4 1,32 h 1,11 h Notícias das 24 horas Acontece 9 3,10 h 2,31 h Notícias culturais Jornal 2 7 4,90 h 4,06 h Notícias da noite Jornal da Tarde 8 7,93 h 6,22 h Notícias das 13 horas Notícias 8 0,62 h 0,53 h Notícias da manhã País Regiões 13 6,73 h 4,80 h Notícias nacionais País Regiões Lisboa 7 2,28 h 1,93 h Notícias locais RTP Economia 13 1,89 h 1,23 h Notícias financeiras Telejornal 30 31,38 h 24,29 h Notícias das 20 horas Total 99 60,15 h 46,48 h Tabela 3.3: Conjunto de programas presentes no corpus de treino. 27

44 Deste corpus fazem parte um total de aproximadamente 1366 oradores diferentes Corpus de Desenvolvimento Este conjunto permite melhorar o desempenho do sistema de verificação do orador através do ajuste dos parâmetros do sistema no cálculo dos resultados. Estes parâmetros incluem, por exemplo, os valores da média e do desvio padrão dos resultados obtidos pelos modelos oradores quando testados contra segmentos impostores. O corpus de desenvolvimento é composto por 24 programas noticiosos, gravados em Abril, Junho e Dezembro do ano Após a remoção dos jingles, intervalos publicitários e silêncio, o conjunto de desenvolvimento fica reduzido a cerca de 11 horas. Os valores do tempo total, tempo útil e o número de programas que fazem parte de cada conjunto encontram-se na Tabela 3.4. Conjunto Ano Número Tempo Total Tempo Útil Devel ,23 h 6,60 h Pilot ,55 h 4,79 h Total 24 13,78 h 11,39 h Tabela 3.4: Conjuntos de desenvolvimento. A Tabela 3.5 apresenta um sumário dos programas televisivos que fazem parte deste conjunto. Observa-se que a composição do corpus de desenvolvimento é similar ao corpus de treino com o Telejornal da RTP a ser novamente o programa com maior tempo útil. Programa Número Tempo Total Tempo Útil Tipo 24 Horas 3 86,96 min 73,67 min Notícias das 24 horas Acontece 2 40,46 min 31,58 min Notícias culturais Grande Reportagem 1 69,65 min 57,40 min Entrevistas políticas Jornal ,65 min 79,90 min Notícias da noite Jornal da Tarde 2 130,77 min 103,27 min Notícias das 13 horas Notícias 2 18,69 min 16,90 min Notícias da manhã País Regiões 2 48,92 min 38,35 min Notícias nacionais País Regiões Lisboa 2 44,89 min 40,93 min Notícias locais Remate 1 7,53 min 6,81 min Notícias desportivas RTP Economia 3 20,38 min 14,40 min Notícias financeiras Telejornal 4 262,84 min 220,35 min Notícias das 20 horas Total 24 13,78 h 11,39 h Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento. 28

45 No corpus de desenvolvimento existem aproximadamente 418 oradores diferentes Corpus de Teste A finalidade do corpus de teste é avaliar o desempenho do sistema de reconhecimento do orador. Este corpus é composto por 44 programas noticiosos divididos entre 5 conjuntos (Eval, Jeval, 11march, Rtp07 e Rtp08) e contém programas gravados entre o ano 2001 e A forma com se encontram divididos os diferentes conjuntos e quais as suas características encontram-se na Tabela 3.6. Conjunto Ano Número Tempo Total Tempo Útil Eval ,96 h 4,53 h Jeval ,52 h 13,52 h 11march ,50 h 5,33 h Rtp ,22 h 4,79 h Rtp ,21 h 3,69 h Total 44 39,41 h 31,86 h Tabela 3.6: Conjuntos de teste. A Tabela 3.7 apresenta um sumário dos programas televisivos que fazem parte do corpus de teste. Programa Número Tempo Total Tempo Útil Tipo 24 Horas 2 38,60 min 32,12 min Notícias das 24 horas Acontece 1 17,84 min 12,63 min Notícias culturais Jornal ,44 min 26,70 min Notícias da noite Jornal da Tarde 1 62,99 min 42,98 min Notícias das 13 horas Notícias 1 10,70 min 8,50 min Notícias da manhã País Regiões 1 33,78 min 25,42 min Notícias nacionais País Regiões Lisboa 1 20,20 min 17,64 min Notícias locais RTP Economia 2 20,00 min 13,79 min Notícias financeiras Telejornal 34 35,37 h 28,85 h Notícias das 20 horas Total 44 39,41 h 31,86 h Tabela 3.7: Conjunto de programas presentes no corpus de teste. No corpus de teste são possíveis identificar cerca de 1032 oradores diferentes. 29

46 30

47 Capítulo 4 Capítulo 4: Características 31

48 4.1. Introdução Neste capítulo é abordado qual o conjunto de características relevantes da voz utilizado no reconhecimento do orador e qual o pré-processamento realizado como forma de eliminar o silêncio entre palavras. No presente trabalho optou-se por usar os coeficientes de predição linear perceptiva, devido aos bons resultados apresentados anteriormente em tarefas de reconhecimento do orador. Foram ainda utilizados, para além dos coeficientes PLP, a energia e os parâmetros delta e delta-delta Pré-Processamento Áudio O módulo de pré-processamento áudio usado neste trabalho foi desenvolvido no L2F, INESC-ID, [Meinedo, 2008] e faz parte do sistema de reconhecimento da fala Audimus. Este módulo tem o objectivo de particionar e classificar segmentos áudio. Um diagrama do módulo de préprocessamento áudio é apresentado na Figura 4.1. Segmentação Áudio Classificação Áudio Classificação Orador Segmento Áudio Alterações Acústicas Fala Não Fala Condições Background Género Agrupamento Identificação Caracterização Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]). A segmentação áudio é responsável por detectar os locais onde o orador ou as condições de background se alteram. A classificação fala/não-fala determina se um segmento áudio contém fala ou não. As condições de background indicam se o background é silencioso, tem ruído ou música. A distinção entre oradores do género masculino ou feminino é feita pela detecção de género. O 32

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

5 Resultados. 5.1. Avaliação Baseada na Taxa de Igual Erro

5 Resultados. 5.1. Avaliação Baseada na Taxa de Igual Erro 5 Resultados Neste capitulo discutem-se os resultados obtidos no desenvolvimento desta pesquisa segundo a metodologia descrita no capitulo anterior. A avaliação de acurácia para tarefas de verificação

Leia mais

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET 2010/2011 1 Protocolo TCP/IP É um padrão de comunicação entre diferentes computadores e diferentes sistemas operativos. Cada computador deve

Leia mais

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS - Grupo 550 INFORMÁTICA Planificação Anual /Critérios de avaliação

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS - Grupo 550 INFORMÁTICA Planificação Anual /Critérios de avaliação DOMÍNIOS (Unidades) UNIDADE 1 INTRODUÇÃO À PROGRAMAÇÃO Introdução Conteúdos Objetivos Estratégias/ recursos Conceitos fundamentais Teste e controlo de erros em algoritmia Estruturas de controlo Arrays

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

Engenharia de Software Sistemas Distribuídos

Engenharia de Software Sistemas Distribuídos Engenharia de Software Sistemas Distribuídos 2 o Semestre de 2009/2010 FEARSe Requisitos para a 1 a entrega 18 de Março de 2010 1 Introdução O projecto conjunto das disciplinas de Engenharia de Software

Leia mais

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores Trabalhos Práticos Programação II Curso: Engª Electrotécnica - Electrónica e Computadores 1. Objectivos 2. Calendarização 3. Normas 3.1 Relatório 3.2 Avaliação 4. Propostas Na disciplina de Programação

Leia mais

A SÈTIMA. O nosso principal objectivo

A SÈTIMA. O nosso principal objectivo 03 A SÈTIMA A SÉTIMA produz soluções de software maioritariamente com recurso à WEB, de modo a dar suporte ao crescimento tecnológico que é já a maior realidade do século XXI. Esta aposta deve-se ao facto

Leia mais

Arquitetura de Rede de Computadores

Arquitetura de Rede de Computadores TCP/IP Roteamento Arquitetura de Rede de Prof. Pedro Neto Aracaju Sergipe - 2011 Ementa da Disciplina 4. Roteamento i. Máscara de Rede ii. Sub-Redes iii. Números Binários e Máscara de Sub-Rede iv. O Roteador

Leia mais

Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores

Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR TÉCNICO Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores Primeiro Teste 21 de Outubro de 2006, 9:00H 10:30H Nome: Número:

Leia mais

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática 3ºAno Disciplina de Desenvolvimento de Sistemas de Software Ano Lectivo de 2009/2010 GereComSaber Sistema de

Leia mais

Considerações Finais. Capítulo 8. 8.1- Principais conclusões

Considerações Finais. Capítulo 8. 8.1- Principais conclusões Considerações Finais Capítulo 8 Capítulo 8 Considerações Finais 8.1- Principais conclusões Durante esta tese foram analisados diversos aspectos relativos à implementação, análise e optimização de sistema

Leia mais

Sistema de Informação de Licenciamento de Operações de Gestão de Resíduos

Sistema de Informação de Licenciamento de Operações de Gestão de Resíduos Sistema de Informação de Licenciamento de Operações de Gestão de Resíduos Indice Indice... 2 1. Introdução... 3 2. Sistema de Informação de Licenciamento de Operações de Gestão de Resíduos (SILOGR)....

Leia mais

Manual do GesFiliais

Manual do GesFiliais Manual do GesFiliais Introdução... 3 Arquitectura e Interligação dos elementos do sistema... 4 Configuração do GesPOS Back-Office... 7 Utilização do GesFiliais... 12 Outros modos de utilização do GesFiliais...

Leia mais

Direcção Regional de Educação do Algarve

Direcção Regional de Educação do Algarve MÓDULO 1 Folha de Cálculo 1. Introdução à folha de cálculo 1.1. Personalização da folha de cálculo 1.2. Estrutura geral de uma folha de cálculo 1.3. O ambiente de da folha de cálculo 2. Criação de uma

Leia mais

Aplicações de Escritório Electrónico

Aplicações de Escritório Electrónico Universidade de Aveiro Escola Superior de Tecnologia e Gestão de Águeda Curso de Especialização Tecnológica em Práticas Administrativas e Tradução Aplicações de Escritório Electrónico Folha de trabalho

Leia mais

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling DIMENSIONANDO PROJETOS DE WEB-ENABLING Uma aplicação da Análise de Pontos de Função Dimensionando projetos de Web- Enabling Índice INTRODUÇÃO...3 FRONTEIRA DA APLICAÇÃO E TIPO DE CONTAGEM...3 ESCOPO DA

Leia mais

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações 5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações Este capítulo apresenta uma nova proposta que consiste em empregar os atributos baseados

Leia mais

SISTEMAS DE RECONHECIMENTO DE LOCUTOR INDEPENDENTE DE TEXTO

SISTEMAS DE RECONHECIMENTO DE LOCUTOR INDEPENDENTE DE TEXTO UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA 2012.2 SISTEMAS DE RECONHECIMENTO DE LOCUTOR INDEPENDENTE DE TEXTO PROPOSTA DE TRABALHO DE GRADUAÇÃO Aluno:

Leia mais

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa COMO AUMENTAR AS RECEITAS DE UM NEGÓCIO: O CONCEITO DE GESTÃO DE RECEITAS (revenue management) (Publicado na Revista Hotéis de Portugal Maio/Junho 2004) por João Gomes, Director Executivo do Instituto

Leia mais

1 Transmissão digital em banda base

1 Transmissão digital em banda base 1 Transmissão digital em banda base A transmissão digital oferece algumas vantagens no que diz respeito ao tratamento do sinal, bem como oferecimento de serviços: Sinal pode ser verificado para avaliar

Leia mais

Modelo Cascata ou Clássico

Modelo Cascata ou Clássico Modelo Cascata ou Clássico INTRODUÇÃO O modelo clássico ou cascata, que também é conhecido por abordagem top-down, foi proposto por Royce em 1970. Até meados da década de 1980 foi o único modelo com aceitação

Leia mais

Controladores Lógicos Programáveis 2

Controladores Lógicos Programáveis 2 Escola Superior de Tecnologia Instituto Politécnico de Castelo Branco Departamento de Informática Curso de Engenharia Informática Automação e Controlo Industrial Ano Lectivo de 2004/2005 Controladores

Leia mais

Protocolo TCP/IP. Neste caso cada computador da rede precisa de, pelo menos, dois parâmetros configurados:

Protocolo TCP/IP. Neste caso cada computador da rede precisa de, pelo menos, dois parâmetros configurados: Protocolo TCP/IP Neste caso cada computador da rede precisa de, pelo menos, dois parâmetros configurados: Número IP Máscara de sub-rede O Número IP é um número no seguinte formato: x.y.z.w Não podem existir

Leia mais

Aplicações de Escritório Electrónico

Aplicações de Escritório Electrónico Universidade de Aveiro Escola Superior de Tecnologia e Gestão de Águeda Curso de Especialização Tecnológica em Práticas Administrativas e Tradução Aplicações de Escritório Electrónico Microsoft Word Folha

Leia mais

Estudos de Imagem e Notoriedade

Estudos de Imagem e Notoriedade Estudos de Imagem e Notoriedade 1- Enquadramento O Serviço: Relatórios Avaliação da Imagem e Notoriedade das organizações, bem como da força de marca e posicionamento face à concorrência. Para que Serve:

Leia mais

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000 ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário Gestão da Qualidade 2005 1 As Normas da família ISO 9000 ISO 9000 descreve os fundamentos de sistemas de gestão da qualidade e especifica

Leia mais

Base de Dados para Administrações de Condomínios

Base de Dados para Administrações de Condomínios Base de Dados para Administrações de Condomínios José Pedro Gaiolas de Sousa Pinto: ei03069@fe.up.pt Marco António Sousa Nunes Fernandes Silva: ei03121@fe.up.pt Pedro Miguel Rosário Alves: alves.pedro@fe.up.pt

Leia mais

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS (GRUPO INFORMÁTICA) Ano Letivo de 2014/2015 MÓDULO 1 FOLHA DE CÁLCULO

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS (GRUPO INFORMÁTICA) Ano Letivo de 2014/2015 MÓDULO 1 FOLHA DE CÁLCULO Ensino Regular Diurno Disciplina: T.I.C. Professores: Margarida Afonso Curso Profissional - Técnico de Auxiliar de Saúde Ano: 10.º Turma(s): TAS MÓDULO 1 FOLHA DE CÁLCULO OBJECTIVOS Indicar as principais

Leia mais

5 SIMULAÇÃO DE UM SISTEMA WDM DE DOIS CANAIS COM O SOFTWARE VPI

5 SIMULAÇÃO DE UM SISTEMA WDM DE DOIS CANAIS COM O SOFTWARE VPI 68 5 SIMULAÇÃO DE UM SISTEMA WDM DE DOIS CANAIS COM O SOFTWARE VPI O software VPI foi originalmente introduzido em 1998 e era conhecido como PDA (Photonic Design Automation). O VPI atualmente agrega os

Leia mais

Seção 2/E Monitoramento, Avaliação e Aprendizagem

Seção 2/E Monitoramento, Avaliação e Aprendizagem Seção 2/E Monitoramento, Avaliação e Aprendizagem www.bettercotton.org Orientação Text to go here O documento Monitoramento, Avaliação e Aprendizagem da BCI proporciona uma estrutura para medir as mudanças

Leia mais

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde Avaliação da Satisfação dos Utentes dos Serviços de Saúde Entidade Promotora Concepção e Realização Enquadramento Avaliação da Satisfação dos Utentes dos Serviços de Saúde Índice RESUMO EXECUTIVO...

Leia mais

Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis.

Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis. 3. Tabelas de Hash As tabelas de hash são um tipo de estruturação para o armazenamento de informação, de uma forma extremamente simples, fácil de se implementar e intuitiva de se organizar grandes quantidades

Leia mais

Sumário executivo. Em conjunto, as empresas que implementaram

Sumário executivo. Em conjunto, as empresas que implementaram 10 Sumário executivo Conclusões coordenadas pela Deloitte, em articulação com os membros do Grupo de Trabalho da AÇÃO 7 Sumário executivo Em conjunto, as empresas que implementaram estes 17 projetos representam

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

1.2.4. Organizar a estrutura do site

1.2.4. Organizar a estrutura do site 1.2.4. Organizar a estrutura do site 1 Organizar a estrutura do site A organização da estrutura do site passa pela definição das ligações entre as páginas que o compõem Esta organização deve ser intuitiva

Leia mais

Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro

Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro Patrick Silva Nelson Neto Aldebaro Klautau Simpósio Brasileiro

Leia mais

UPS. Unidades de Alimentação Ininterrupta

UPS. Unidades de Alimentação Ininterrupta UPS Uma UPS é um dispositivo que, quando em funcionamento correcto, ajuda a garantir que a alimentação dos equipamentos que estão a ela ligados, não sejam perturbados, fornecendo energia, através de uma

Leia mais

PROVA MODELO 2015. Duração da prova: 120 minutos

PROVA MODELO 2015. Duração da prova: 120 minutos Página 1 de 8 Provas especialmente adequadas destinadas a avaliar a capacidade para a frequência do ensino superior dos maiores de 3 anos, Decreto-Lei n.º 64/006, de 1 de março AVALIAÇÃO DA CAPACIDADE

Leia mais

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Definição Geral: Disciplina de Compiladores Prof. Jorge Bidarra (UNIOESTE) A especificação de requisitos tem como objetivo

Leia mais

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho 20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam

Leia mais

Plataforma Sentinela

Plataforma Sentinela Plataforma Sentinela A plataforma completa para segurança corporativa A plataforma Sentinela é a mais completa plataforma para monitoramento e interceptação em tempo real, gravação e bilhetagem de chamadas

Leia mais

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

1.3. Componentes dum sistema informático HARDWARE SOFTWARE

1.3. Componentes dum sistema informático HARDWARE SOFTWARE 1.3. Componentes dum sistema informático Computador Sistema Informático HARDWARE SOFTWARE + Periféricos Sistema Operativo Aplicações HARDWARE - representa todos os componentes físicos de um sistema informático,

Leia mais

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. Conceitos relativos à Informação 1. Informação O que á a informação? Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. 2. Dados Em informática designa-se

Leia mais

AGRUPAMENTO DE ESCOLAS DE PORTELA E MOSCAVIDE. Informação - Prova de Equivalência à Frequência da disciplina de Aplicações Informáticas B

AGRUPAMENTO DE ESCOLAS DE PORTELA E MOSCAVIDE. Informação - Prova de Equivalência à Frequência da disciplina de Aplicações Informáticas B Prova 303 2015 Informação - Prova de Equivalência à Frequência da disciplina de Aplicações Informáticas B 12º Ano de Escolaridade Despacho normativo n.º 6-A/2015 1. Introdução O presente documento visa

Leia mais

Ferramentas de Modelação e Análise de Sistemas baseadas em Redes de Petri (RdP)

Ferramentas de Modelação e Análise de Sistemas baseadas em Redes de Petri (RdP) Ferramentas de Modelação e Análise de Sistemas baseadas em Redes de Petri (RdP) Existem inúmeras ferramentas (software) baseadas em RdP que permitem desenvolver modelar e analisar sistema de RdP. Algumas

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO CONCEITOS BÁSICOS 1 Necessidade das base de dados Permite guardar dados dos mais variados tipos; Permite

Leia mais

Introdução à Computação

Introdução à Computação Aspectos Importantes - Desenvolvimento de Software Motivação A economia de todos países dependem do uso de software. Cada vez mais, o controle dos processos tem sido feito por software. Atualmente, os

Leia mais

2 Diagrama de Caso de Uso

2 Diagrama de Caso de Uso Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Diagrama de Caso de Uso (Use Case) Autoria:Aristófanes Corrêa

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

Desenvolvimento de uma Aplicação WEB para monitorização de BD Oracle

Desenvolvimento de uma Aplicação WEB para monitorização de BD Oracle Desenvolvimento de uma Aplicação WEB para monitorização de BD Oracle Luís Filipe Borges Pinto Resumo: Este projecto consiste na implementação de uma aplicação WEB para monitorização

Leia mais

Guia Rápido de Vodafone Conferencing

Guia Rápido de Vodafone Conferencing Guia de Utilizador Vodafone Guia Rápido de Vodafone Conferencing O seu pequeno manual para criar, participar e realizar reuniões de Vodafone Conferencing. Vodafone Conferencing Visão geral O que é uma

Leia mais

Escola Secundária Eça de Queiroz

Escola Secundária Eça de Queiroz Escola Secundária Eça de Queiroz Curso de Instalação e Manutenção de Sistemas Informáticos Certificação digital de serviço universal Home Banking e ética na sua utilização. Autor: Daniel Filipe Inácio

Leia mais

Programa de Parcerias e Submissão de Propostas 2014/15

Programa de Parcerias e Submissão de Propostas 2014/15 DEPARTAMENTO DE INFORMÁTICA Programa de Parcerias e Submissão de Propostas 2014/15 O Departamento de Informática (DI) da Faculdade de Ciências da Universidade de Lisboa (FCUL) procura criar e estreitar

Leia mais

Um Plano de Factores Humanos para a Gestão de Perigos Graves

Um Plano de Factores Humanos para a Gestão de Perigos Graves Um Plano de Factores Humanos para a Gestão de Perigos Graves Introdução O quadro seguinte tem por fim orientar o leitor através de uma abordagem prática na correlação de perigos de acidentes graves (MAH)

Leia mais

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto. Discussão sobre Nivelamento Baseado em Fluxo de Caixa. Item aberto na lista E-Plan Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em

Leia mais

Imagiologia de raios X planar

Imagiologia de raios X planar Universidade Técnica de Lisboa Instituto Superior Técnico Mestrado em Engenharia Biomédica Imagiologia de raios X planar Técnicas de Imagiologia Nuno Santos n.º 55746, dodgeps@hotmail.com Rúben Pereira

Leia mais

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos ESTUDO DE VIABILIDADE Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos Objetivos O que é um estudo de viabilidade? O que estudar e concluir? Benefícios e custos Análise de Custo/Benefício

Leia mais

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão 2.0 - Atualização 26/01/2009 Depto de TI - FASUL Página 1

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão 2.0 - Atualização 26/01/2009 Depto de TI - FASUL Página 1 MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento Toledo PR Página 1 INDICE 1. O QUE É O SORE...3 2. COMO ACESSAR O SORE... 4 2.1. Obtendo um Usuário e Senha... 4 2.2. Acessando o SORE pelo

Leia mais

Conceito. As empresas como ecossistemas de relações dinâmicas

Conceito. As empresas como ecossistemas de relações dinâmicas Conceito As empresas como ecossistemas de relações dinâmicas PÁG 02 Actualmente, face à crescente necessidade de integração dos processos de negócio, as empresas enfrentam o desafio de inovar e expandir

Leia mais

CAP. I ERROS EM CÁLCULO NUMÉRICO

CAP. I ERROS EM CÁLCULO NUMÉRICO CAP. I ERROS EM CÁLCULO NUMÉRICO 0. Introdução Por método numérico entende-se um método para calcular a solução de um problema realizando apenas uma sequência finita de operações aritméticas. A obtenção

Leia mais

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br Introdução O computador como ferramenta indispensável: Faz parte das nossas vidas; Por si só não faz nada de útil; Grande capacidade de resolução

Leia mais

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO DOMINE A 110% ACCESS 2010 A VISTA BACKSTAGE Assim que é activado o Access, é visualizado o ecrã principal de acesso na nova vista Backstage. Após aceder ao Access 2010, no canto superior esquerdo do Friso,

Leia mais

Observação das aulas Algumas indicações para observar as aulas

Observação das aulas Algumas indicações para observar as aulas Observação das aulas Algumas indicações para observar as aulas OBJECTVOS: Avaliar a capacidade do/a professor(a) de integrar esta abordagem nas actividades quotidianas. sso implicará igualmente uma descrição

Leia mais

Mestrado em Engª de Redes de Comunicações. Redes de Comunicações Móveis Trabalho de Laboratório (2007/2008)

Mestrado em Engª de Redes de Comunicações. Redes de Comunicações Móveis Trabalho de Laboratório (2007/2008) Mestrado em Engª de Redes de Comunicações Redes de Comunicações Móveis Trabalho de Laboratório (2007/2008) 2007-10-18 Configuração, caracterização, desempenho e limitações de redes sem fios IEEE802 Objectivo

Leia mais

Espectro da Voz e Conversão A/D

Espectro da Voz e Conversão A/D INSTITUTO SUPERIOR TÉCNICO LICENCIATURA EM ENGENHARIA ELECTROTÉCNICA E DE COMPUTADORES GUIA DO 1º TRABALHO DE LABORATÓRIO DE SISTEMAS DE TELECOMUNICAÇÕES I Espectro da Voz e Conversão A/D Ano Lectivo de

Leia mais

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II O seguinte exercício contempla um processo com três estágios. Baseia-se no Inquérito de Satisfação Fase II, sendo, por isso, essencial compreender primeiro o problema antes de começar o tutorial. 1 1.

Leia mais

5.7.6 Internet/Intranet 176 5.7.7 Gestão logística 177 CAPÍTULO 6. DESENVOLVIMENTO DE SISTEMAS DE WORKFLOW 181 6.1 Métodos de Desenvolvimento 181

5.7.6 Internet/Intranet 176 5.7.7 Gestão logística 177 CAPÍTULO 6. DESENVOLVIMENTO DE SISTEMAS DE WORKFLOW 181 6.1 Métodos de Desenvolvimento 181 SUMÁRIO SUMÁRIO PREFÁCIO AGRADECIMENTOS VII XI XIII INTRODUÇÃO CAPÍTULO 1. ORGANIZAR WORKFLOWS 1 1.1 Ontologia da gestão de workflows 1.2 Trabalho 1 1 1.3 Processos de Negócio 3 1.4 Distribuir e Aceitar

Leia mais

PLANIFICAÇÃO ANUAL DE CONTEÚDOS

PLANIFICAÇÃO ANUAL DE CONTEÚDOS ESCOLA SECUNDÁRIA DE MANUEL DA FONSECA Curso Profissional: Técnico de Gestão e Equipamentos Informáticos PLANIFICAÇÃO ANUAL DE CONTEÚDOS GRUPO 550 CICLO DE FORMAÇÃO 2012/2015 ANO LECTIVO 2012/2013 DISCIPLINA:

Leia mais

4. Qual seria o impacto da escolha de uma chave que possua letras repetidas em uma cifra de transposição?

4. Qual seria o impacto da escolha de uma chave que possua letras repetidas em uma cifra de transposição? Prova de 2011-02 1. Descreva duas maneiras de estabelecer uma conexão entre processos na camada de transporte sem o conhecimento da porta (TSAP) ao qual o servidor remoto esteja associado. 2. Estabelecer

Leia mais

Serviço a Pedido ( On Demand ) da CA - Termos e Política de Manutenção Em vigor a partir de 1 de Setembro de 2010

Serviço a Pedido ( On Demand ) da CA - Termos e Política de Manutenção Em vigor a partir de 1 de Setembro de 2010 Serviço a Pedido ( On Demand ) da CA - Termos e Política de Manutenção Em vigor a partir de 1 de Setembro de 2010 A Manutenção do Serviço a Pedido ( On Demand ) da CA consiste numa infra-estrutura de disponibilidade

Leia mais

Software Registado e Certificado pela AT GESTÃO DE LAVANDARIAS. mercado exigente! Certificado. Retail Solutions

Software Registado e Certificado pela AT GESTÃO DE LAVANDARIAS. mercado exigente! Certificado. Retail Solutions Certificado Eficiência Eficiência para para vencer... vencer... Num Num mercado mercado exigente! exigente! Software Registado e Certificado pela AT LAVA i Índice Introdução Apresentação da Empresa Pág.

Leia mais

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu 1 Programação Não Linear Aula 25: Programação Não-Linear - Funções de Uma única variável Mínimo; Mínimo Global; Mínimo Local; Optimização Irrestrita; Condições Óptimas; Método da Bissecção; Método de Newton.

Leia mais

Archive Player Divar Series. Manual de Utilização

Archive Player Divar Series. Manual de Utilização Archive Player Divar Series pt Manual de Utilização Archive Player Índice pt 3 Índice 1 Introdução 4 2 Operação 5 2.1 Iniciar o programa 5 2.2 Conhecer a janela principal 6 2.3 Botão Abrir 6 2.4 Vistas

Leia mais

GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL

GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL Versão: 1.0 Data: 05-06-2009 Índice Acesso e estados dos Formulários... 3 Escolha do Formulário e submissão... 4 Bases para a navegação

Leia mais

Performance Ratio. Conteúdo. Factor de qualidade para o sistema fotovoltaico

Performance Ratio. Conteúdo. Factor de qualidade para o sistema fotovoltaico Performance Ratio Factor de qualidade para o sistema fotovoltaico Conteúdo A Performance Ratio é uma das unidades de medida mais importantes para a avaliação da eficiência de um sistema fotovoltaico. Mais

Leia mais

GereComSaber. Desenvolvimento de Sistemas de Software. Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática

GereComSaber. Desenvolvimento de Sistemas de Software. Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática Desenvolvimento de Sistemas de Software Ano Lectivo de 2009/10 GereComSaber Ana Duarte, André Guedes, Eduardo

Leia mais

SAMUO APP: MANUAL DO ADMINISTRADOR

SAMUO APP: MANUAL DO ADMINISTRADOR as novas tecnologias ao serviço do desenvolvimento de projectos w w w. i m a d i p. c o m CABO VERDE: REALIZAÇÃO DE UMA ACÇÃO- PILOTO PARA A MELHORIA DA GESTÃO NUM GABINETE TÉCNICO SELECCIONADO OFITEC

Leia mais

Prof. Daniel Hasse. Multimídia e Hipermídia

Prof. Daniel Hasse. Multimídia e Hipermídia Prof. Daniel Hasse Multimídia e Hipermídia AULA 02 Agenda: Algoritmos de Codificação/Decodificação; Codec de Áudio. Atividade complementar. Algoritmos de Codificação/Decodificação - Comunicação tempo real,

Leia mais

judgment EM PERSPECTIVA:

judgment EM PERSPECTIVA: EM PERSPECTIVA: judgment As teorias de liderança geralmente estão baseadas em características individuais, como o carisma, influência, ética, entre outras, mas um determinante central da performance de

Leia mais

Licenciatura em Engenharia Informática Sistemas Distribuídos I 2ª chamada, 6 de Julho de 2005 2º Semestre, 2004/2005

Licenciatura em Engenharia Informática Sistemas Distribuídos I 2ª chamada, 6 de Julho de 2005 2º Semestre, 2004/2005 Departamento de Informática Faculdade de Ciências e Tecnologia UNIVERSIDADE NOVA DE LISBOA Licenciatura em Engenharia Informática Sistemas Distribuídos I 2ª chamada, 6 de Julho de 2005 2º Semestre, 2004/2005

Leia mais

OBJETIVOS: CARGA HORÁRIA MÍNIMA CRONOGRAMA:

OBJETIVOS: CARGA HORÁRIA MÍNIMA CRONOGRAMA: ESTUDO DIRIGIDO COMPONENTE CURRICULAR: Controle de Processos e Instrumentação PROFESSOR: Dorival Rosa Brito ESTUDO DIRIGIDO: Métodos de Determinação de Parâmetros de Processos APRESENTAÇÃO: O rápido desenvolvimento

Leia mais

Programação Orientada a Objetos com PHP & MySQL Sistema Gerenciador de Banco de Dados: Introdução e configuração de bases de dados com Postgre e MySQL

Programação Orientada a Objetos com PHP & MySQL Sistema Gerenciador de Banco de Dados: Introdução e configuração de bases de dados com Postgre e MySQL Programação Orientada a Objetos com PHP & MySQL Sistema Gerenciador de Banco de Dados: Introdução e configuração de bases de dados com Postgre e MySQL Prof. MSc. Hugo Souza Iniciando nossas aulas sobre

Leia mais

INQUÉRITO REALIZADO A ALUNOS LABORATÓRIO DE CÁLCULO. Trabalho realizado por Lucília Rodrigues Macedo

INQUÉRITO REALIZADO A ALUNOS LABORATÓRIO DE CÁLCULO. Trabalho realizado por Lucília Rodrigues Macedo INQUÉRITO REALIZADO A ALUNOS LABORATÓRIO DE CÁLCULO 2010 Trabalho realizado por Lucília Rodrigues Macedo ÍNDICE 1. INTRODUÇÃO... 3 2. METODOLOGIA... 3 3. APRESENTAÇÃO DOS RESULTADOS... 4 1. RESULTADOS

Leia mais

Demonstração da técnica de detecção sensível à fase: uma aplicação óptica. Davi R. Ortega, Túlio C. Rizuti da Rocha Orientador: Flávio Caldas da Cruz

Demonstração da técnica de detecção sensível à fase: uma aplicação óptica. Davi R. Ortega, Túlio C. Rizuti da Rocha Orientador: Flávio Caldas da Cruz Demonstração da técnica de detecção sensível à fase: uma aplicação óptica I - Introdução Davi R. Ortega, Túlio C. Rizuti da Rocha Orientador: Flávio Caldas da Cruz No relatório parcial, mostramos a teoria

Leia mais

Escola Secundária de Camarate

Escola Secundária de Camarate Escola Secundária de Camarate Ano Lectivo 2014/2015 Planificação da Disciplina de Tecnologias da Informação e Comunicação Curso Profissional de Técnico Auxiliar de Saúde e Técnico de Restauração e Bar

Leia mais

PLANIFICAÇÃO MODULAR ANO LECTIVO 2015 / 2016

PLANIFICAÇÃO MODULAR ANO LECTIVO 2015 / 2016 PLANIFICAÇÃO MODULAR ANO LECTIVO 2015 / 2016 CURSO/CICLO DE FORMAÇÃO Técnico de Eletrotecnia e Técnico de Gestão de Equipamentos Informáticos / 2015/2018 DISCIPLINA: Tecnologias da Informação e Comunicação

Leia mais