1. Introdução Padrão MPEG-7 Fundamentos Multimídia Aumento da quantidade de informações AV digitais disponíveis Impulsionado pelo aumento da largura de banda e do processamento das máquinas e pela possibilidade da captura digital das informações. É comum a procura por dados no formato de texto e números Anna Verônica Fernandes Ribeiro UFF Universidade Federal Fluminense Surge a necessidade de uma busca eficiente de conteúdos AV... 2 1. Introdução 1. Introdução Um sistema para recuperação de conteúdos multimídia deve ser capaz de: Estabelecer relações espaciais, identificar a posição dos elementos dentro do conteúdo; Estabelecer relações temporais, correlacionar um evento em um determinado tempo; Reconhecer e Interpretar uma imagem; Possibilitar consultas através de representações. MPEG (Moving Picture Experts Group), comitê que também desenvolveu outros padrões conhecidos, como: MPEG-1 (1992); MPEG-2 (1994); MPEG-4 (versão 1 em 1998 e versão 2 em 1999). Padrão MPEG-7 (Multimedia Content Description Interface) - Interface de Descrição de Conteúdos Multimídia 3 4
2. Objetivos Especificar um conjunto padrão de descritores que podem ser usados para definir vários tipos de informações multimídia, através da inclusão de mais tipos de dados. Essas descrições, entretanto, não dependem do modo como o conteúdo é codificado ou armazenado. 5 3. Funcionalidades Partes: MPEG-7 Systems MPEG-7 Description Definition Language MPEG-7 Visual MPEG-7 Audio MPEG-7 Multimedia Description Schemes MPEG-7 Reference Software - uma implementação do software das partes relevantes do padrão MPEG-7 já em estado normativo. MPEG-7 Conformance Testing - diretrizes e procedimentos para testes de conformidade das implementações MPEG-7. MPEG-7 Extraction and use of descriptions - material informativo (na forma de relatórios técnicos) sobre a extração e uso de algumas ferramentas de descrição. 6 Ferramentas de Descrição Description Tools Descritores (D), que definem a sintaxe e a semântica de cada característica (elementos metadados); Esquemas de Descrição (DS), que especificam a estrutura e a semântica dos relacionamentos entre seus componentes; 7 8
Linguagem para Definição de Descrição Description Definition Language (DDL) para definir a sintaxe das ferramentas de descrição do MPEG-7 e para permitir a criação de novos Esquemas de Descrição e, possivelmente, descritores e para permitir a extensão e modificação dos esquemas de descrição existentes; Ferramentas de Sistemas System Tools para dar suporte: a representações de códigos binários para armazenar e transmitir eficientemente, aos mecanismos de transmissão (tanto para o formato texto quanto para o formato binário), à multiplexação das descrições, à sincronização da descrição com o conteúdo, à gestão e à proteção da propriedade intelectual nas descrições do MPEG-7. 9 10 Nível de abstração para definir uma determinada mídia: Inferior - para um vídeo, seria a descrição de forma, tamanho, textura, cor e movimento; e para um arquivo de áudio, seria posição do som no espaço, timbre e pausas. Superior - este nível pode ser representado na forma semântica, como por exemplo, um determinado personagem faz uma determinada ação em um determinado local. 11 Este nível de abstração está relacionado na maneira como as características são extraídas, ou seja, características de baixo nível de abstração são extraídas de forma automática por meio de processamento de computadores, enquanto que características de alto nível de abstração utilizam interação humana. 12
A. Descrições separadas do conteúdo AV. B. Descrições junto ao conteúdo AV. 13 4. Sistema MPEG-7 Funções Tradicionais: Entrega: as descrições AV são entregues usando uma variedade de protocolos de transmissão e armazenamento; Sincronização: as diferentes componentes de uma apresentação AV são relacionadas no tempo. Para algumas aplicações, as informações de descrição devem ser apresentadas em um determinado instante preciso (antes, depois ou no mesmo tempo do conteúdo ser mostrado); Gerência do Stream: o completo gerenciamento dos streams de informações AV, incluindo descrições, implica na necessidade de um determinado mecanismo que permita uma aplicação consumir o conteúdo. 14 4. Sistema MPEG-7 Funções Específicas do MPEG-7: Linguagem para a representação dos esquemas de descrições, é resolvida pela DDL (Linguagem para definição de Descrição); Representação das descrições binária e dinâmica, é referida como BiM (Binary format for metadata). 4.1. Arquitetura do Terminal É esperado que em algum ambiente operacional MPEG-7, a distribuição dos recursos seja escassa -armazenamento ou rede. Dados precisam ser comprimidos e transferidos em um modo incremental. A principal exigência para o BiM é prover uma compacta representação das descrições. O BiM é equivalente à descrição textual (XML). Portanto, é esperado que algumas aplicações usem o conteúdo em formato binário diretamente, sem necessariamente passar por uma etapa intermediária de representação textual. 15 16
4.1. Arquitetura do Terminal 4.1.1. Unidade de Acesso Streams de Descrição: Esta informação pode ser uma completa descrição do conteúdo AV ou um fragmento da descrição. Fragmentos são usados em situações onde a transmissão da descrição inteira em um único bloco grande de dados não é apropriada. Desta forma, a descrição MPEG-7 tem de ser reconstruída combinando vários fragmentos; Streams de Esquema: Esta informação define a estrutura de descrição MPEG-7. Para algumas aplicações, pode-se assumir que as aplicações conhecem o esquema que foi usado para gerar as descrições. Desta maneira, o esquema não precisa ser transmitido para o terminal. 17 As unidades de acesso são estruturas como comandos encapsulando descrições ou esquemas de descrição. Comandos provêm os aspectos dinâmicos da descrição MPEG-7: eles permitem uma descrição ser entregue em um bloco grande ou ser fragmentado em pequenas partes. A descrição ou esquema de descrição em formato texto (XML) é fisicamente uma estrutura em árvore. Esta árvore pode ser dividida conforme a necessidade, esta divisão é uma modificação da árvore original. 18 4.1.1. Unidade de Acesso 4.1.1. Unidade de Acesso A unidade de Acesso Define: O tipo de comando a ser executado no terminal (add, delete, update, etc); A descrição ou esquema de descrição a ser usado para a modificação; A localização do nó da árvore onde esta modificação foi feita. 19 20
4.1.2. Formato Binário 4.1.3. Entrega das Descrições Existem duas principais razões para ter um pacote baseado no formato binário: O formato textual exige mais recursos de transmissão e armazenamento. Conseqüentemente, uma eficiente compressão do formato textual é aplicada quando se converte para o formato binário. O formato textual não é muito apropriado para aplicações de streaming. Para este tipo de aplicação, um nível alto de flexibilidade é necessário com respeito à ordem de transmissão dos elementos. 21 A entrega da descrição em um sistema particular está fora do escopo do padrão MPEG-7. Existem ferramentas de entrega que podem ser usadas para este propósito. O MPEG desenvolveu especificações para o transporte dos dados MPEG-7 no sistema do MPEG-2, assim como o conteúdo MPEG-4. O transporte dos dados MPEG-7 ao longo do conteúdo MPEG-4 é feito considerando dados MPEG-7 como um tipo específico de streams elementares do MPEG-4. A identificação dos streams elementares para os dados MPEG-7 já é provida na especificação MPEG-4. 22 5. DDL 5. DDL DDL (Linguagem para Definição de Descrição) A DDL define a linguagem utilizada para especificar o esquema de descritores, inclui regras sintáticas e semânticas. A DDL é capaz de estabelecer relações espaciais, temporais, estruturais e conceituais entre os elementos DS e D. Para a criação das descrições, o MPEG-7 disponibiliza um conjunto de elementos de metadados descritos em XML (extensible Markup Language). Além das descrições textuais em arquivos XML, muitas vezes extensas, o MPEG-7 especifica descrições em formato binário, o BiM, permitindo o streaming e a compressão em até 98% das descrições. ISO/IEC JTC1/SC29/WG11 N3575, Julho, 2000 (Beijing) 23 Permite representar e estender descritores, descrições e esquemas de descrições Adiciona Extensões ao XML específicas para MPEG-7 como suporte a: Vetores Matrizes <simpletype name="integermatrix3x4" base="integer" derivedby="list"> <mpeg7:dimension value="3 4" /> </simpletype> <element name='integermatrix3x4' type='integermatrix3x4'/> <IntegerMatrix3x4> 5 8 9 4 6 7 8 2 7 1 3 5 </IntegerMatrix3x4> 24
5. DDL 5.1. Esquema XML DS DDL DS O efetivo objetivo deste esquema é definir uma classe de documentos XML, especificando construções particulares que restringem a estrutura e conteúdo dos documentos. Algumas destas restrições poderão ser, por exemplo, os elementos e os seus conteúdos, atributos e seus valores, os tipos de dados entre outras. D D DS D D D 25 A escolha da linguagem XML foi fundamentalmente motivada pela estabilidade deste esquema de linguagem, a sua larga adoção, a disponibilidade de ferramentas e de parsers e sua capacidade de satisfazer a maioria das exigências da norma. A DDL pode ser dividida nas seguintes partes: Componentes estruturais do esquema XML; componentes de tipos de dados do esquema XML; extensões MPEG-7 ao esquema XML. 26 6. MDS MDS (Esquemas de Descrição Multimídia) 6. MDS Elementos Básicos O MPEG-7 fornece ferramentas de esquema (Schema Tools) que ajudam na formação, empacotamento e anotação de descrições MPEG-7. Uma descrição MPEG-7 começa com um elemento raiz que indica se a descrição é completa ou parcial. Uma descrição completa contém uma descrição exaustiva do conteúdo AV de uma aplicação. Entretanto, uma unidade descritiva possui apenas informação parcial ou incremental, para ser adicionada a uma descrição já existente. 27 28
6. MDS 6. Visual Gerência do Conteúdo O MPEG-7 provê DSs para a gestão de conteúdos AV, sendo que tais ferramentas são usadas para descrever as seguintes informações: criação e produção; codificação da essência, formatos de arquivos e de armazenamento; uso do conteúdo. Descrição do Conteúdo O MPEG-7 fornece DSs para a descrição da estrutura e da semântica dos conteúdos AV. A ferramenta estrutural descreve a estrutura do conteúdo AV em termos de segmentos de vídeo, quadros, regiões estáticas e dinâmicas e segmentos de áudio. As ferramentas semânticas descrevem os objetos, os eventos e as noções do mundo real capturadas no conteúdo AV. 29 Estruturas Básicas: Existem cinco estruturas básicas relacionadas com a parte visual: Mapa de coordenadas (Grid Layout), Séries de Tempo (Time Series), Múltiplas Vistas 2D- 3D (2D-3D Multiple View), Coordenadas Espaciais 2D (Spatial 2D Coordinates) e Interpolação temporal (Temporal Interpolation). Além das estruturas Básicas existem os descritores de cor, forma, textura, movimentação, localização e reconhecimento de face. 30 6. Visual 7. Áudio Tipo Visual Característica (Feature) Cor Textura Forma Movimento Localização Outros Descritor Color Space Color Quantization Dominant Colors Scalable Color Color Layout Color Struture GoP/Gof Color Homogeneous Texture Texture Browsing Edge Histogram Region Shape Contour Shape Shape 3D Camera Motion Motion Trajectory Parametric Motion Motion Activity Region Locator Spatio-Temporal Locator Face Recognition 31 32
8. Aplicação do Padrão No mercado, atualmente já existem ferramentas disponíveis para a indexação e utilização de descritores MPEG-7. Dentre eles, pode-se destacar o Ricoh MPEG-7 Movie Tool usado para criar descrições, o Cânon MPEG-7 Spoken Content Transcription Service um serviço que transcreve em XML no padrão MPEG-7 um arquivo de áudio e o IBM MPEG-7 Annotation Tool. O IBM Annotation Tool é uma ferramenta de uso livre, que auxilia na criação de descrições MPEG-7 para vídeos gravados na formato MPEG-1. Pode-se usá-lo para anotar partes de uma seqüência de vídeo através de descritores de cena, descrições de objetos chave, descrições de eventos. As descrições anotadas são associadas com cada parte de vídeo e armazenadas como uma descrição MPEG-7 em um arquivo XML. 33 9. Estrutura Elemento raiz: <Mpeg7> Description Metadata Header: metadados sobre a descrição <DescriptionMetadata> Dois tipos Válidos diferentes: Unidades de descrição <DescriptionUnit> Permite que se envie apenas parte de toda a descrição, quando a aplicação fizer uma requisição específica Descrições Completas <Description> 34 9. Estrutura 9. Estrutura Elementos de Alto Nível: Organizados em três grupos: Content Management Content Entity (*) Content Abstraction (*) Content Management Lida com Informações relacionadas ao conteúdo, mas independente do que este vem a ser: User description Media Description Creation Description Usage Description Classification Scheme Description (*) Content Description 35 36
9. Estrutura 9. Estrutura Content Entity Multimedia Content: Image (still region) Video (segment) Audio (segment) Multimedia content Multimedia collection Signal Ink Content Analytic Edited Video Content Entity Semantic Description Model Description Sumary Description View Description Variation Description 37 38 39