UM MODELO DE REDES BAYESIANAS APLICADO A SISTEMAS DE REALIDADE AUMENTADA. Rodrigo Luis de Souza da Silva

Documentos relacionados

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

REALIDADE VIRTUAL. Tatiane Cruz de Souza Honório

7.Conclusão e Trabalhos Futuros

4 Segmentação Algoritmo proposto

Módulo 15 Resumo. Módulo I Cultura da Informação

Dadas a base e a altura de um triangulo, determinar sua área.

ORIENTADOR(ES): JEFFERSON ANTONIO RIBEIRO PASSERINI, MARIA BETÂNIA RICCI BOER

APOSTILA DE EXEMPLO. (Esta é só uma reprodução parcial do conteúdo)

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

CorelDRAW UM PROGRAMA DE DESIGN

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Um Driver NDIS Para Interceptação de Datagramas IP

Projeto de Sistemas I

COMO USAR DOIS MONITORES NO WINDOWS 8

LENTES E ESPELHOS. O tipo e a posição da imagem de um objeto, formada por um espelho esférico de pequena abertura, é determinada pela equação

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Microsoft Office PowerPoint 2007

Conceitos de Banco de Dados

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

COLÉGIO ESTADUAL PAULO LEMINSKI APOSTILA SOBRE O BROFFICE IMPRESS

MONTAGEM DE PROCESSO VIRTUAL

3.1 Definições Uma classe é a descrição de um tipo de objeto.

EXPERIMENTO N o 6 LENTES CONVERGENTES INTRODUÇÃO

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

A ANÁLISE E A IMPLEMENTAÇÃO DE UM AMBIENTE COMPUTACIONAL TRIDIMENSONAL DE ENTRETENIMENTO DIGITAL

O Windows 7 é um sistema operacional desenvolvido pela Microsoft.

AULA 1 Iniciando o uso do TerraView

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF

Admistração de Redes de Computadores (ARC)

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

ANDRÉ APARECIDO DA SILVA APOSTILA BÁSICA SOBRE O POWERPOINT 2007

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Orientação a Objetos

Programa Intel Educar Tutorial: Ferramenta de Classificação Visual

CICLO DE APERFEIÇOAMENTO PROFISSIONAL DOS SERVIDORES MUNICIPAIS DE MARICÁ- RJ EDITOR DE TEXTO - WORD

Ambiente de Simulação Virtual para Capacitação e Treinamento na Manutenção de. Disjuntores de Subestações de Energia Elétrica,

Capacidade = 512 x 300 x x 2 x 5 = ,72 GB

Google Drive. Passos. Configurando o Google Drive

5 Mecanismo de seleção de componentes

Introdução ao Aplicativo de Programação LEGO MINDSTORMS Education EV3

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração.

Módulo 4. Construindo uma solução OLAP

Visualização Científica. Pedro de Botelho Marcos Março/2008. Núcleo de Computação Científica Tópicos Avançados em Computação II

ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA º PERÍODO - 7º MÓDULO AVALIAÇÃO A4 DATA 22/10/2009 ENGENHARIA DE USABILIDADE

Governança de TI. ITIL v.2&3. parte 1

Passo 3: Posicionando a Câmera na Prova Didática Teórica ou na Prova de Defesa da Produção Intelectual

VCA Treinamento em Algoritmo

2. Função Produção/Operação/Valor Adicionado

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas

Processos Técnicos - Aulas 4 e 5

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 10

APLICAÇÕES MULTIMÍDIA AULA 3. aplicações 3D e Realidade Aumentada. professor Luciano Roberto Rocha.

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Projeto de Arquitetura

Requisitos de Software

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

MODELO CMM MATURIDADE DE SOFTWARE

Estrutura do Trabalho: Fazer um resumo descrevendo o que será visto em cada capítulo do trabalho.

Processos de gerenciamento de projetos em um projeto

Disciplina: Programas de Edição de Textos Professora: Érica Barcelos

Sugestão de Roteiro para Elaboração de Monografia de TCC

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Virtual Welding. Treinamento do futuro

Sistemas de Gestão Ambiental O QUE MUDOU COM A NOVA ISO 14001:2004

Universidade Federal de Pernambuco

IMPLEMENTAÇÃO DE SOCKETS E THREADS NO DESENVOLVIMENTO DE SISTEMAS CLIENTE / SERVIDOR: UM ESTUDO EM VB.NET

6. Geometria, Primitivas e Transformações 3D

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Hardware (Nível 0) Organização. Interface de Máquina (IM) Interface Interna de Microprogramação (IIMP)

Universidade Federal de Santa Maria UFSM Centro de Tecnologia CT. Power Point. Básico

Bem-vindo! O que há de novo no PaperPort 10?

DESENVOLVIMENTO DE PROGRAMA MULTIMIDIA PARA O ENSINO DEDINÂMICA DE MÚLTIPLOS CORPOS

2 Diagrama de Caso de Uso

3 SCS: Sistema de Componentes de Software

Prof. Marcelo Henrique dos Santos

Engenharia de Software

Concepção e Elaboração

ArpPrintServer. Sistema de Gerenciamento de Impressão By Netsource Rev: 02

Manual SAGe Versão 1.2 (a partir da versão )

O Windows 7 é um sistema operacional desenvolvido pela Microsoft.

Engenharia de Software III

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA

Apostilas OBJETIVA Escrevente Técnico Judiciário TJ Tribunal de Justiça do Estado de São Paulo - Concurso Público Caderno 1.

REALIDADE AUMENTADA APLICADA NA EDUCAÇÃO: ESTUDOS DOS SEUS BENEFÍCIOS

Instalações Máquinas Equipamentos Pessoal de produção

Pesquisa e organização de informação

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

ARCO - Associação Recreativa dos Correios. Sistema para Gerenciamento de Associações Recreativas Plano de Desenvolvimento de Software Versão <1.

Caso você possua cadastro no Twitter, selecione a opção Logar com meu usuário, e insira seu nome de usuário e senha do serviço:

Transcrição:

UM MODELO DE REDES BAYESIANAS APLICADO A SISTEMAS DE REALIDADE AUMENTADA Rodrigo Luis de Souza da Silva TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS EM ENGENHARIA CIVIL. Aprovada por: Prof. Luiz Landau, D.Sc. Prof. Gilson Antônio Giraldi, D.Sc. Prof. Gerson Gomes Cunha, D.Sc. Prof. José Luis Drummond Alves, D.Sc. Prof. Rosa Maria Esteves Moreira da Costa, D.Sc. RIO DE JANEIRO, RJ - BRASIL DEZEMBRO DE 2006

SILVA, RODRIGO LUIS DE SOUZA Um Modelo de Redes Bayesianas Aplicado a Sistemas de Realidade Aumentada [Rio de Janeiro] 2006 XII, 105 p., 29,7 cm, (COPPE/UFRJ, D.Sc., Engenharia Civil, 2006) Tese Universidade Federal do Rio de Janeiro, COPPE 1 Realidade Aumentada 2 Redes Bayesianas I. COPPE/UFRJ II. Título (série) ii

Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) UM MODELO DE REDES BAYESIANAS APLICADO A SISTEMAS DE REALIDADE AUMENTADA Rodrigo Luis de Souza da Silva Dezembro/2006 Orientadores: Luiz Landau e Gilson Antônio Giraldi Programa: Engenharia Civil Esta tese apresenta uma estrutura para reconhecimento e classificação de objetos em sistemas de Realidade Aumentada (RA). Para realizarmos a tarefa de classificação, foi utilizada uma Rede Bayesiana simples composta de três características: cor, forma e textura. Inicialmente povoa-se a base de dados com os objetos que irão servir como marcadores na cena, associando a cada um deles um objeto virtual que será visualizado posteriormente. Estando povoada a base, pode-se apresentar qualquer um dos objetos previamente armazenados, sendo o sistema capaz de reconhecê-lo e, desta forma, capaz de projetar o objeto associado a ele na posição e orientação correta em relação a câmera. A presente proposta permite o uso de objetos planares de diferentes cores, formas e propriedades de material como marcadores na cena. Após a etapa de reconhecimento, um algoritmo destinado à estimativa de pose baseado na biblioteca ARToolkit é aplicado para encontrar a orientação do objeto real permitindo o registro 3D. iii

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) A BAYESIAN NETWORK MODEL APPLIED TO AUGMENTED REALITY SYSTEMS Rodrigo Luis de Souza da Silva December/2006 Advisors: Luiz Landau e Gilson Antônio Giraldi Department: Civil Engineering This thesis presents a framework for object recognition and classification under an Augmented Reality (AR) Environment. In order to accomplish the task of classification, we use a naïve Bayesian Network composed by three features: color, shape and texture. Initially, the database has to be populated with objects that will be the scene markers, and virtual objects have to be associated with these markers. After these steps, any of the previously recorded objects can be presented and recognized by the system and the associated virtual objects will be projected in the right position and orientation. Our approach allows the use of planar objects with different colors, shape and material properties in order to work as makers around the scene. After the recognition task, an algorithm designed for pose estimation based on the ARToolkit Library is applied in order to find real object orientation, allowing 3D virtual registration. iv

Sumário 1 Introdução 1 1.1 Problema a ser abordado............................. 1 1.1.1 Marcadores Fiduciais........................... 2 1.1.2 Requisitos do Modelo.......................... 4 1.2 Objetivos..................................... 4 1.3 Contribuições................................... 5 1.4 Assuntos Relacionados.............................. 5 1.5 Estrutura da Tese................................. 7 2 A Realidade Aumentada 8 2.1 Conceitos Básicos................................. 8 2.2 Componentes de um sistema de Realidade Aumentada............. 12 2.2.1 Gerador de Cena............................. 12 2.2.2 Sistema de Rastreamento......................... 12 2.2.3 Dispositivos da RA............................ 12 2.3 Dispositivos e Displays.............................. 13 2.3.1 HMD com tecnologia Óptica....................... 13 2.3.2 Dispositivo Virtual de Retina....................... 14 2.3.3 HMD baseado em vídeo......................... 15 2.3.4 Baseados em Monitor.......................... 16 2.3.5 Dispositivos de Projeção......................... 16 2.3.6 Dispositivos Hápticos.......................... 17 2.4 Registro - Rastreamento............................. 18 2.4.1 Mecânicos................................ 20 2.4.2 Ultra-sônicos............................... 21 2.4.3 Magnéticos Passivos........................... 21 2.4.4 Magnéticos Ativos............................ 22 v

2.4.5 GPS - Sistema de Posicionamento Global................ 22 2.4.6 Ópticos.................................. 24 2.4.7 Soluções híbridas............................. 25 2.4.8 Comparações............................... 26 2.4.9 Limitações do Registro Baseado em Visão Computacional....... 27 2.5 Principais Aplicações............................... 28 2.5.1 Medicina................................. 28 2.5.2 Entretenimento.............................. 28 2.5.3 Engenharia................................ 29 2.5.4 Educação................................. 30 2.5.5 Treinamento............................... 31 3 Redes Bayesianas 33 3.1 Histórico..................................... 33 3.2 Fundamentos Básicos............................... 33 3.3 Classificadores Bayesianos............................ 36 3.3.1 Definição de Classificador Bayesiano.................. 36 3.3.2 Classificador Naïve-Bayes........................ 36 3.3.3 Árvore estendendo Naïve-Bayes (TAN)................. 37 3.3.4 BN estendendo Naïve-Bayes....................... 38 3.3.5 Redes Bayesianas Gerais......................... 39 3.4 Aplicações de Redes Bayesianas......................... 40 3.4.1 Redes Bayesianas na medicina...................... 40 3.4.2 AutoClass................................. 41 3.4.3 Recuperação de Informação Visual................... 42 3.4.4 Sistemas de Vigilância.......................... 43 3.4.5 Reconhecimento de objetos CAD.................... 44 4 Modelo Proposto 45 4.1 Característica de Cor............................... 47 4.2 Característica de Forma............................. 48 4.3 Características de Textura............................ 50 4.4 Sistema BayesAR................................ 51 4.4.1 Armazenamento dos objetos....................... 51 4.4.2 Rastreamento dos objetos na cena.................... 58 vi

4.4.3 Registro................................. 58 5 Resultados Experimentais 62 5.1 Aplicações..................................... 63 5.1.1 Aplicações em Engenharia........................ 63 5.1.2 Manufatura de equipamentos...................... 64 5.1.3 Ambientes externos........................... 64 5.2 Qualidade de Marcadores............................ 65 5.3 Uso de Marcadores Fiduciais........................... 70 5.4 Utilização isolada de características....................... 72 5.5 Ambiente de teste................................ 74 5.5.1 Desempenho............................... 75 6 Conclusões e Trabalhos Futuros 81 A BayesAR 84 A.1 Características técnicas do sistema........................ 84 A.1.1 Modos de Visualização.......................... 84 A.1.2 Janela de amostragem adaptável..................... 86 A.1.3 Modelo de Arquivo de Armazenamento................. 86 A.2 Modelagem do Sistema.............................. 86 A.2.1 Diagramas de Caso de Uso........................ 88 A.2.2 Diagrama de Componentes....................... 92 A.2.3 Diagrama de Implantação........................ 92 A.2.4 Diagramas de seqüência......................... 92 A.2.5 Diagramas de Classes.......................... 93 A.2.6 Diagrama de Atividades......................... 93 Referências Bibliográficas 98 vii

Lista de Figuras 1.1 Exemplos de marcadores fiduciais utilizados pelo projeto TRIP (a) e Cyber- Code (b)...................................... 3 2.1 O Virtuality Continuum proposto por Milgram................. 10 2.2 HMD Óptico.................................... 13 2.3 Esquema de RA com HMD Óptico........................ 14 2.4 Eyeglass display com elemento holográfico.................... 14 2.5 Dispositivo Virtual de Retina............................ 15 2.6 Esquema do Dispositivo Virtual de Retina..................... 16 2.7 Realidade aumentada baseada em HMD...................... 17 2.8 Esquema de Video See-Through.......................... 18 2.9 Esquema de Realidade Aumentada baseada em monitor............. 18 2.10 Exemplo de Realidade Aumentada baseada em monitor.............. 19 2.11 RA baseada em projeção - Infraestrutura..................... 20 2.12 RA baseada em projeção - Resultado....................... 21 2.13 Exemplo de marcador fiducial utilizado no ARToolkit.............. 26 2.14 Cirurgia guiada por imagem............................ 29 2.15 Exemplo de jogo utilizando RA.......................... 29 2.16 Realidade Aumentada no Entretenimento..................... 30 2.17 Engenharia usando Realidade Aumentada..................... 30 2.18 Geometria usando Realidade Aumentada..................... 31 2.19 Realidade Aumentada utilizada para treinamento em montagem e manutenção de micros...................................... 32 3.1 Exemplo de rede Bayesiana............................ 34 3.2 Rede Bayesiana com independências declaradas................. 35 viii

3.3 Em (a), Rede Bayesiana com um classificador Naïve-Bayes; (b) um complexo classificador bayesiano permitindo limitar dependências condicionais entre as características.................................... 37 3.4 Uma simples estrutura TAN............................ 38 3.5 Uma simples estrutura BAN............................ 38 3.6 Uma GBN simples................................. 40 3.7 Dados são agrupados por cor e forma. A área superior foi preenchida com formas verdes e azuis, a área central com formas azuis e a área inferior com formas vermelhas, amarelas e laranjas....................... 41 4.1 Modelo de Rede Bayesiana com apenas uma evidência.............. 45 4.2 Rede Bayesiana contendo características de cor, forma e textura........ 47 4.3 O grid projetado sobre o cubo mostra a redução de cores proposta........ 48 4.4 Janela de amostragem (vermelha) contida no objeto de interesse......... 52 4.5 De (a) a (d) estão ilustradas as etapas do algoritmo de crescimento de região... 54 4.6 Triangulação do tipo Freudenthal......................... 55 4.7 Exemplos de k-simplex (k = 0, 1, 2 e 3, respectivamente)............. 56 4.8 Exemplo de triângulos transversos. As arestas completamente rotuladas estão em negrito..................................... 57 4.9 Marcador com Bounding Box e OffSet correspondente.............. 59 4.10 Em destaque, os vértices que o ARToolkit analisa para calcular a orientação dos objetos gráficos em relação aos marcadores.................. 60 4.11 Em (a) direção de busca a partir do offset no caso trivial e após ter sido rotacionado em (b). As setas indicam a direção dos planos de rasterização...... 60 4.12 Em (a) marcador com pontos colineares e em (b) vértices de interesse não interceptam a Bounding Box do objeto....................... 61 5.1 Isosuperfície projetada sobre um marcador genérico............... 63 5.2 Linhas de campo geradas por duas partículas colocadas em dois vértices de um marcador...................................... 64 5.3 Adição de componentes virtuais sobre um componente real............ 65 5.4 Componentes podem ser realçados em um dispositivo pelo modelo proposto. Os componentes foram identificados por características de cor e forma e são escolhidos pelo usuário apontando o componente desejado com o mouse.... 66 5.5 Ambiente externo com a janela de amostragem.................. 67 ix

5.6 Escolha da superfície cimentada para ser o marcador da cena........... 67 5.7 Marcadores brancos de formatos diversos utilizados como marcadores...... 68 5.8 Marcador composto por duas cores distintas.................... 70 5.9 Em (a) e (b) estão apresentados dois marcadores de difícil diferenciação pelo sistema....................................... 71 5.10 Histogramas dos marcadores da Figura 5.9.................... 71 5.11 Marcadores onde a característica de textura é mais relevante que as demais analisadas...................................... 71 5.12 Relação entre índices e marcadores utilizados na Figura 5.13........... 72 5.13 Nesta ilustração são apresentados os resultados de cada uma das características analisadas neste trabalho ao apresentarmos ao sistema os marcadores presentes na Figura 5.11................................... 73 5.14 Marcador fiducial (Kanji) sendo utilizado pelo sistema proposto........ 74 5.15 Neste exemplo pode-se observar resultados usando apenas características de cor para diferenciar objetos. Em ambos, pode-se observar a robustez do sistema para tratar oclusões parciais............................ 76 5.16 O sistema é capaz de usar objetos reais como marcadores, como um disquete (a) ou a capa de um livro (b)............................ 77 5.17 Pode-se diferenciar objetos através de sua forma. Em (a) uma cruz branca foi usada como marcador e em (b) um círculo preto................. 78 5.18 Amostras de areia (a) e mármore (b) usadas como marcadores.......... 79 5.19 Desempenho varia de acordo com a distância do marcador em relação a câmera. O desempenho médio em (a), (b), (c) e (d) foi de 16.2 fps, 19.8 fps, 24.1 fps e 27.8 fps, respectivamente.............................. 80 A.1 Em (a) pode-se observar o objeto projetado de forma incorreta sobre o marcador e em (b) o área válida correspondente. Em (c) visualização normal de um objeto virtual renderizado sobre um marcador e em (d) o mesmo marcador com sua área válida e seus quatro cantos identificados por triângulos....... 85 A.2 Janelas de amostragem de tamanhos variados para se adequar aos objetos a serem analisados na cena.............................. 86 A.3 Modelo de arquivo de armazenamento de características utilizado pelo sistema. Apenas parte dos objetos com suas respectivas características estão visíveis neste exemplo................................... 87 A.4 Diagrama de Casos de uso............................. 88 x

A.5 Diagrama de componentes do projeto....................... 92 A.6 Diagrama de Implantação............................. 93 A.7 Diagrama de Seqüência da inicialização do sistema................ 94 A.8 Diagrama de Seqüência da aquisição de um objeto da cena e seu posterior cálculo em relação à base de dados........................ 95 A.9 Diagrama de classes mostrando os principais objetos que compõem o sistema. Linhas tracejadas simbolizam relação de agregação e linhas contínuas, herança. 96 A.10 Diagrama de Atividade mostrando os principais estados entre a inicialização do sistema e a renderização de um novo objeto na cena.............. 97 xi

Lista de Tabelas 2.1 Tabela comparativa dos tipos de rastreadores................... 27 2.2 Relação entre o tamanho do Padrão e o espaço de Interação Útil......... 28 5.1 Comparativo com o marcador WhitePad..................... 68 5.2 Comparativo com o marcador WhiteCross.................... 69 5.3 Comparativo com o marcador White1Fenda................... 69 5.4 Comparativo com o marcador White2Fenda................... 70 5.5 Diferenças entre os valores armazenados no sistema para característica de cor.. 72 5.6 Diferenças entre os valores armazenados no sistema para característica de forma. 72 5.7 Diferenças entre os valores armazenados no sistema para característica de textura. 74 5.8 Resultados dos dez melhores resultados ao apresentar o marcador Kanji ao sistema....................................... 74 5.9 Resultados dos dez melhores resultados ao apresentar o marcador Hiro ao sistema. 75 xii

Capítulo 1 Introdução Na presente tese, a ênfase está na apresentação de um modelo que permita reconhecer objetos através de características naturais como cor, forma e textura e utilizá-los como marcadores em sistemas de Realidade Aumentada. Os objetos de interesse são previamente armazenados em uma base de dados. O processo de reconhecimento é realizado por uma Rede Bayesiana modelada para combinar as características acima citadas. O processo de reconhecimento é iniciado com a escolha de um objeto na cena pelo usuário, denominado objeto-alvo. Uma vez escolhido, suas características são extraídas e armazenadas. Essas características são posteriormente utilizadas como parâmetro de busca para a Rede Bayesiana. A rede calcula a probabilidade de cada característica do objeto-alvo em relação às características dos objetos armazenados na base da dados. Finalmente, a média das estimativas de cada característica é calculada e o objeto com a mais alta média é eleito o marcador na cena corrente. 1.1 Problema a ser abordado Em sistema de Realidade Aumentada, dá-se o nome de registro ao processo no qual objetos virtuais são alinhados com a cena real (Seção 2.4). Esta etapa é uma das mais importantes nesse tipo de sistema, uma vez que se a mesma não for feita com precisão, perde-se a sensação de realidade na cena final obtida. Para conseguirmos obter o perfeito alinhamento de objetos virtuais e objetos reais faz-se uso de rastreadores. Atualmente utilizam-se principalmente rastreadores mecânicos, ultra-sônicos, magnéticos, baseados em GPS e ópticos. Dentre estes, os rastreadores ópticos são os de configuração mais simples, pois necessitam apenas de marcações especiais na cena e uma câmera ligada ao sistema. Registro e rastreamento de ambos câmera e objetos em sistemas de Realidade Aumentada (RA) são necessários pois para combinarmos cenas reais com objetos artificiais, temos que pro- 1

jetar a representação gráfica dos dados em suas posições corretas na cena real (Azuma, 1997). Recentemente, processos envolvendo a extração de características de imagens capturadas por uma câmera foram utilizados para estabelecer o posicionamento da câmera e o correto posicionamento dos objetos virtuais em uma cena (Seo & Hong, 2000; Kutulakos & Vallino, 1998). Uma etapa de especial interesse ao utilizarmos marcadores ópticos é a inicialização do sistema. Entende-se por inicialização os processos que precedem o registro dos objetos virtuais com os objetos reais. É na inicialização que o sistema de Realidade Aumentada deve encontrar os marcadores na cena e identificá-los, possibilitando desta forma projetar os objetos corretos sobre eles. As marcações especiais utilizadas no processo de registro são obtidas fazendo-se uso de características presentes na cena ou mais comumente utilizando-se marcadores fiduciais. Marcadores fiduciais possuem inúmeras vantagens que justificam o seu uso abrangente, como veremos a seguir. 1.1.1 Marcadores Fiduciais Marcadores fiduciais são marcações passivas (não necessitam de fonte de energia) e são amplamente utilizados por possuírem baixo custo e mínima manutenção. O uso desses marcadores simplifica consideravelmente o problema geral de rastrear objetos em imagens em movimento. Uma identificação fiducial (fiducial tag) é essencialmente um código de barras visual projetado para ser facilmente identificado por uma máquina. Sistemas baseados nesse tipo de identificação já estão bem estabelecidos, como lojas e estabelecimentos que possuem leitor de códigos de barras. Contudo, esses sistemas não levam em consideração o posicionamento espacial do marcador, mas sim sua identificação. Sistemas de Realidade Aumentada utilizam o mesmo princípio, adicionando à identificação a possibilidade de extrair informações sobre localização e orientação dos marcadores. Dentre os sistemas baseados em tags fiduciais mais utilizados atualmente está o ARToolkit (Kato, 2005), que se destaca por sua precisão e facilidade de uso. Sistemas como o desenvolvido no projeto TRIP (Figura 1.1.a) (Ipina et al., 2002) e o CyberCode (Figura 1.1.b) da Sony (Rekimoto & Ayatsuka, 2000) utilizam o mesmo princípio. Sistemas que utilizam identificadores fiduciais possuem várias vantagens: marcadores podem ser impressos rápida e economicamente, fazendo-se uso de material encontrado em qualquer escritório. O sistema de aquisição utilizado também não precisa ser sofisticado, bastando o uso de uma câmera padrão devidamente calibrada. A operação de um sistema fiducial é trivial. Uma câmera captura uma imagem de um ou 2

(a) (b) Figura 1.1: Exemplos de marcadores fiduciais utilizados pelo projeto TRIP (a) e CyberCode (b). mais marcadores fiduciais. Cada marcador possui ao menos uma forma geométrica fixa e um identificador que é único. Esta forma geométrica atua como conhecimento a priori e ao procurar na imagem projeções perspectivas válidas desta forma geométrica, pode-se identificar onde as tags estão na imagem e calcular a posição e orientação que seriam compatíveis com a projeção perspectiva estimada. Por exemplo, o ARToolkit utiliza quadrados (viram quadriláteros quando projetados) e o TRIP utiliza círculos (viram elipses quando projetados). Uma vez detectadas as tags, elas precisam ser identificadas. Essa identificação é realizada através do símbolo (identificador) contido na forma geométrica. Apesar de suas vantagens, sistemas fiduciais possuem algumas restrições que limitam consideravelmente seu uso. Tratamento de oclusão ao utilizar um único marcador é um problema que os sistemas fiduciais convencionais têm dificuldade de resolver. Sistemas como o proposto em (Harle & Hopper, 2006) resolvem o problema de oclusão inserindo um número maior de marcadores com o custo de poluir consideravelmente a cena. Outra restrição imposta pelo uso de marcadores fiduciais é a necessidade de preparar a cena inserindo marcadores em posições de interesse. Há várias situações práticas onde esse tipo de preparação é indesejável. Um exemplo desse tipo de situação é na criação de um sistema de RA em museus para mostrar informações em obras como quadros, por exemplo. Seria interessante obter informações sobre essa obra sem a necessidade de colocarmos marcadores fiduciais ao seu redor e sem ter o custo adicional de marcadores ativos (mecânicos, magnéticos etc). Ao invés disso, o ideal seria extrairmos as características visuais da obra que está sendo observada e analisar essas características para identificar a obra em uma base de dados. O mesmo problema ocorre na criação de sistemas que sejam capazes de funcionar em ambientes externos. Imprimir marcadores fiduciais para uso como referência em ambientes externos não é prático e em alguns 3

casos é inviável. 1.1.2 Requisitos do Modelo Uma forma para resolver os problemas vistos anteriormente seria criar um modelo com as seguintes características: Capacidade de usar marcadores mais genéricos do que marcadores fiduciais; Flexibilidade para permitir oclusões parciais mesmo com o uso de um único marcador; Possibilidade de utilizar o modelo tanto em ambientes internos quanto em ambientes externos; Possibilidade de incluir novos objetos ao modelo de forma simples e direta; Capacidade de reconhecer marcadores com diferentes formatos ao invés de um formato fixo; Possibilidade de trabalhar com marcadores monocromáticos ou coloridos para aumentar as possibilidades de uso do sistema. A relevância do modelo a ser apresentado nesta tese está na capacidade de agrupar as características acima em uma arquitetura que integre tanto os recursos de reconhecimento de objetos em uma cena, quanto as funcionalidades de recuperação de posicionamento e orientação. Devese levar em consideração que as vantagens dos sistemas que utilizam marcadores fiduciais serão preservadas neste modelo. 1.2 Objetivos Neste trabalho será proposto um modelo baseado em Redes Bayesianas para realizar a inicialização de um sistema de Realidade Aumentada. A principal vantagem do modelo proposto é fornecer uma arquitetura que facilite a adição de novos objetos a uma base de dados e oferecer recursos para seu posterior reconhecimento na cena. O presente modelo foi inicialmente proposto em (Silva et al., 2004a) com alguns resultados preliminares apresentados em (Silva et al., 2004b). Foi demonstrada também perspectivas para a arquitetura proposta em aplicações envolvendo visualização de campos eletromagnéticos em (Silva et al., 2005a). Uma versão mais estável da implementação do modelo possibilitou a 4

geração de novos resultados e sua consequente publicação em (Silva et al., 2005b). Detalhes sobre a arquitetura do modelo estão em (Silva et al., 2006). Os princípios básicos que envolvem o presente modelo seguem a mesma linha de outros trabalhos semelhantes presentes literatura. Ribeiro-Neto (Ribeiro-Neto & Muntz, 1996) e Silva (Silva, 2000) propuseram um modelo para recuperação de informação textual que usava como termos de busca palavras como metadata, www, links e passagens de texto (parágrafos ou sequência de parágrafos relacionados ao contexto da informação), e outros. O modelo proposto possuía três camadas denominadas: camada de consulta, camada de termos e camada de imagem. A camada de consulta leva consigo termos de consulta, a segunda camada armazena os termos passíveis de ocorrer e a camada de imagem armazena as imagens na base da dados. No presente trabalho, o modelo proposto por Ribeiro-Neto (Ribeiro-Neto & Muntz, 1996) e Silva (Silva, 2000) foi adaptado e estendido para o problema de rastreamento. Alguns trabalhos na literatura trataram da aplicação de Redes Bayesianas para o problema de reconhecimento de objetos. Em (Krebs et al., 1998; Krebs & Wahl, 1998), uma estrutura geral para construir um sistema orientado a tarefas para reconhecimento de objetos 3D utilizando Redes Bayesianas foi proposto. Buxton (Buxton & Gong, 1995) utilizou reconhecimento de objetos em um sistema de vigilância e em (Tsin et al., 2001) Redes Bayesianas foram utilizadas para classificar uma imagem colorida em uma cena externa. 1.3 Contribuições Um modelo baseado em Redes Bayesianas para reconhecer objetos de interesse em uma cena com base na combinação de diversas características primitivas; Um modelo para sistema de Realidade Aumentada que faz uso de marcadores genéricos. Um modelo capaz de minimizar o trabalho de adição de novos marcadores à base de dados a ser utilizada pelo Sistema de Realidade Aumentada. As contribuições apresentadas aqui têm como objetivo final propiciar a criação de sistemas de Realidade Aumentada capazes de reconhecer objetos genéricos em uma cena e associar a esses objetos informações previamente armazenadas sobre os mesmos. Novos marcadores genéricos podem ser facilmente adicionados e suas características devidamente extraídas para possibilitar sua posterior diferenciação dos marcadores já presentes na base de dados. 5

1.4 Assuntos Relacionados Vários tipos de sensores podem ser utilizados para realizarmos o registro em sistemas de RA. Entre eles podemos destacar sistemas mecânicos, dispositivos magnéticos e GPS por exemplo. Entretanto, esses sistemas trazem alguns problemas como calibração extensiva, restrições quanto ao deslocamento, perturbações do ambiente e baixa precisão. Alguns desses problemas podem ser resolvidos utilizando sistemas baseados em visão computacional. O processo de registro nesse tipo de sistema não necessita qualquer instrumento adicional além de uma câmera para a aquisição da imagem. A precisão dos resultados com esse tipo de sistema é geralmente maior em relação a outros citados anteriormente. Alguns sistemas baseados em visão computacional utilizam marcadores fiduciais no ambiente para fazer a tarefa de registro como em (Kato & Billinghurst, 1999; Appel & Navab, 2002). Atualmente já existem pesquisas para realizar rastreamento utilizando características naturais de objetos como em (Genc et al., 2002; Simon et al., 2000; Neumann & You, 1999). Por várias razões (inicialização do sistema sem marcadores fiduciais, processamento de imagem em tempo real, etc), rastreamento sem marcadores com câmeras móveis ainda é uma das tarefas mais desafiadoras no contexto de Realidade Aumentada, e um dos principais problemas é o de inicializar o sistema automaticamente. O sistema proposto em (Lepetit et al., 2003) utiliza um método de inicialização automática que conta com uma etapa de aprendizagem, onde uma base de dados de características é construída baseada num conjunto de quadros capturados em um procedimento offline. Estas características chaves consistem em encontrar pontos 3D no modelo do objeto e um ponto de vista fixo baseado na aparência do objeto nas imagens. A inicialização é feita comparando-se de forma robusta os pontos da imagem inicial com os pontos presentes na base de dados através de um cálculo de similaridade. Uma desvantagem desse método está no fato destes descritores locais serem sensíveis a transformações de escala e efeitos de aproximação. Por esta razão, o espaço de trabalho é limitado pela área de onde os quadros foram capturados. Em (Genc et al., 2002), uma estrutura baseada no aprendizado de características da cena com uma única câmera foi proposto. Primeiramente um conjunto de características naturais 3D é aprendido através do uso de um sistema de rastreamento externo (marcadores fiduciais por exemplo). Numa segunda etapa, o sistema utiliza essas característica aprendidas para o rastreamento até que um número suficiente de características tenha sido aprendido. Esse sistema de rastreamento precisa de uma inicialização que forneça uma estimativa aproximada da posição da camera e de sua orientação. Desta forma, o sistema necessita de um sistema externo 6

baseado em marcadores para fazer o rastreamento inicial. Se o sistema perder o rastreamento, é necessário reinicializarmos da mesma maneira. Neste caso, a inicialização do sistema de rastreamento não precisa ser muito precisa nem em tempo real. O sistema é capaz de convergir mesmo com informações de rastreamento imprecisas ou parciais. Entretanto, os autores em (Genc et al., 2002) confirmam que o uso de marcadores fiduciais na inicialização não é uma solução aceitável para a maioria das aplicações de RA. Em (Najafi et al., 2004), uma abordagem com inicialização automática para ambientes internos bem como externos foi proposta. Neste sistema, os dados iniciais de posição podem ser obtidos por câmeras estacionárias para ambientes fechados e por GPS em ambientes externos. Esses dados podem prover estimativas rudimentares em relação à orientação do usuário. A inicialização completa pode ser obtida compondo-se os dados de múltiplos sensores, isto é, câmeras móveis e estacionários e GPS. Em casos onde o rastreamento é perdido, por exemplo, por motivo de oclusões, o procedimento de inicialização é reiniciado automaticamente. Esta abordagem pode ser facilmente estendida para adicionar outros tipos de sensores. 1.5 Estrutura da Tese Abaixo serão relacionados os demais capítulos que compõem esta tese, com uma breve descrição de seus conteúdos. No Capítulo 2 será apresentada uma breve introdução sobre Realidade Aumentada. Neste capítulo serão apresentados conceitos básicos, componentes que geralmente estão presentes nesses sistemas, dispositivos de visualização, limitações de registro e as principais aplicações da área. O Capítulo 3 apresenta conceitos relacionados a Redes Bayesianas e algumas aplicações de interesse. Serão apresentados conceitos matemáticos e explicações a respeito da nomenclatura utilizada por esse modelo. No Capítulo 4 será apresentado o modelo proposto. Será explicitado como as características de Cor, Forma e Textura foram utilizadas juntamente com as Redes Bayesianas para criarmos um modelo capaz de armazenar e reconhecer objetos em uma cena. No Capítulo 5 serão apresentados os resultados experimentais do sistema implementado para exemplificar a capacidade do modelo proposto. Serão apresentados os resultados já publicados e alguns mais recentes. Entre os exemplos que serão citados estão aplicações em engenharia, manufatura de equipamentos e testes em ambientes externos. Finalmente, o Capítulo 6 irá apresentar as conclusões e direções futuras deste trabalho. 7

Para auxiliar na implementação de um sistema com as mesmas características do modelo proposto nesta tese, no Apêndice A serão apresentados alguns dos diagramas utilizados na modelagem do sistema utilizado para gerar os resultados do Capítulo 5. 8

Capítulo 2 A Realidade Aumentada Realidade Aumentada é uma nova tecnologia que permite a sobreposição de imagens virtuais geradas por computador sobre cenas do mundo real e com potencial para muitas aplicações em pesquisa industrial e acadêmica (Azuma, 1997). A área de pesquisa em Realidade Aumentada existe a pouco mais de uma década, mas o crescimento e o progresso no passar desses poucos anos foram notáveis. Nas próximas seções será apresentado um breve histórico, algumas das principais aplicações, bem como seus principais conceitos e componentes. Realidade Aumentada e Realidade Virtual (RV) compartilham características como a apresentação de imagens geradas por computador para criar um ambiente (RV) ou adicionar componentes virtuais ao ambiente real no qual o usuário está presente (RA) (Feiner et al., 1993). Para conseguirmos criar a ilusão de que os objetos virtuais estejam no mesmo ambiente que os objetos reais, vários aspectos devem ser levados em consideração, como veremos a seguir. 2.1 Conceitos Básicos Apesar de ser uma área recente de pequisa, a concepção de Realidade Aumentada é mais antiga do que a princípio poderíamos supor. O primeiro experimento considerado como de Realidade Aumentada foi ainda na década de 60, quando Sutherland utilizou um capacete com visor transparente para visualizar imagens 3D desenvolvidas por ele. Somente na década de 90 foi formada a área de pesquisa em Realidade Aumentada, quando um número maior de trabalhos possibilitou que ela fosse identificada e caracterizada como um tópico diferente dos outros. Um marco nesta área foi o levantamento bibliográfico publicado por Azuma em 1997, onde definiu o campo de estudo, descreveu os principais problemas e 9

relacionou os trabalhos realizados até então (Azuma, 1997). No fim da década de 90, surgiram os primeiros workshops e simpósios. Foram também criadas organizações voltadas especificamente para este tema. Um fator importante para o desenvolvimento de pesquisas na área foi a disponibilização do ARToolKit (Kato, 2005), uma biblioteca para desenvolvimento rápido de aplicações de Realidade Aumentada. Foi desenvolvido inicialmente na Universidade do Japão e atualmente é mantido pela Universidade de Washington, nos EUA, e pela Universidade de Canterbury, na Nova Zelândia. Para compreender melhor o que é Realidade Aumentada, é interessante identificá-la no contexto da Realidade Virtual e também verificar quais as diferenças entre uma e outra. O termo Realidade Virtual foi dado por Jaron Lanier, fundador da VPL Research Inc. Na década de 80 ele utilizou este termo para diferenciar as simulações tradicionais em relação aos mundos virtuais que ele tentava criar. Então, depois disso, muitas definições foram propostas. Aukstakalnis, citado em (Vallino, 1998), afirma que a Realidade Virtual é um ambiente tridimensional, interativo e gerado por computador no qual uma pessoa é imersa. Para Neto, (Neto, 2004), o termo refere-se, normalmente, a uma experiência imersiva e interativa baseada em imagens gráficas 3D, geradas em tempo-real por computador. Nas definições apresentadas estão presentes elementos que caracterizam esta área de pesquisa: o ambiente gerado por computador, a tridimensionalidade e a interatividade, todos em tempo real. Filmes e animações, como vêm sendo feitos, não possuem interatividade, portanto, não são considerados Realidade Virtual. Outro aspecto que podemos observar é o nível de imersão: embora o ambiente mais clássico de Realidade Virtual seja a total desconexão do mundo real, a imersão total nem sempre é exigida. Nestes casos, podem ser considerados como Realidade Virtual jogos tridimensionais em computadores. Devido a várias semelhanças na estrutura, na geração de imagens tridimensionais, de interatividade e de utilização de uma série de tecnologias, equipamentos e soluções comuns, a Realidade Aumentada é entendida como uma sub-área da Realidade Virtual. Em (Santos, 2001), o termo Realidade Aumentada diz respeito à composição de ambientes reais com ambientes simulados. De acordo com Insley (Insley, 2003), Realidade Aumentada é a aperfeiçoamento do mundo real com textos, imagens e objetos virtuais gerados por computador. Para Azuma (Azuma et al., 2001) a Realidade Aumentada suplementa o mundo real com objetos virtuais que parecem coexistir no mesmo espaço do mundo real. Azuma também definiu algumas características de um sistema para ser considerado de Realidade Aumentada: Combina objetos reais e virtuais num ambiente real ; Opera interativamente, e em tempo real, e Registra (alinha) objetos reais e virtuais uns com os outros (Azuma et al., 2001). 10

Esta definição, ao contrário de outras, não restringe os sistemas de Realidade Aumentada ao uso de determinada tecnologia de apresentação, como a dos capacetes HMD (Head Monted Display). Também não se restringe ao sentido da visão já que, potencialmente, todos os demais sentidos podem ter seus equivalentes virtuais. Ainda outra observação sobre a definição de Azuma é que ele considera como parte da Realidade Aumentada o que outros pesquisadores denominam Realidade Mediada ou Realidade Diminuída, isto é, a remoção de objetos reais da cena. Por exemplo, a inclusão de um objeto virtual na frente de outro real tem o efeito de subtraí-lo e fazer com que este não seja percebido. Foi proposta por Milgram (Milgram & Kishino, 1994), uma taxonomia ao observar que o termo Realidade Virtual vinha sendo aplicado em uma série de ambientes, nem sempre os de imersão total. Foi identificado então que estes ambientes se encontravam em algum ponto do que ele denominou Virtuality Continuum (Figura 2.1), ou um Contínuo de Virtualidade, cujos extremos são o Ambiente Real e a Realidade Virtual. Entre os dois extremos está o que ele denominou de Realidade Misturada e definiu como sendo aquela em que objetos do mundo real e do mundo virtual são apresentados juntos num único dispositivo de apresentação, ou seja, em qualquer local entre os extremos do contínuo da Figura 2.1. Assim, considerando este contexto, a Realidade Aumentada caracteriza-se pelo predomínio do mundo real sobre o virtual, enquanto que na Virtualidade Aumentada ocorre o predomínio do virtual sobre o real. Figura 2.1: O Virtuality Continuum proposto por Milgram. Embora a Realidade Virtual e Realidade Aumentada tenham muitas características em comum, existem algumas diferenças que devem ser destacadas. Em primeiro lugar está a característica de imersão no sistema. A Realidade Aumentada, de acordo com as definições apresentadas, aumenta ou suplementa a realidade com objetos virtuais em todos os momentos. Portanto, é preciso estar em contato com a visão do mundo real, que serve de base sobre a qual as aplicações são construídas. Já a Realidade Virtual, no seu sentido mais clássico, exige a imersão total e completo isolamento da realidade. Outra diferença bastante importante é quanto à fidelidade de reprodução do mundo real que as cenas e objetos virtuais são capazes de apresentar. Na Realidade Virtual, com a imersão 11

total no mundo virtual, o gerador de cenas tem a responsabilidade de produzir um ambiente que faça a substituição do mundo real, de maneira tão fiel e completa quanto possível. Entretanto, as aplicações de Realidade Aumentada, além de exigir que um volume bem menor de objetos virtuais seja gerado, não é necessário sempre que estes sejam realistas. Embora alguns afirmem que a meta da Realidade Aumentada seja a mistura indistinguível de objetos reais e virtuais (Vallino, 1998; Azuma et al., 2001), menus, textos e botões, por exemplo, não precisam ser necessariamente tridimensionais, sombreados ou corretamente iluminados. Por estes motivos, existem diferenças na qualidade dos dispositivos de apresentação nos dois casos. Aqueles usados na Realidade Virtual devem possuir uma excelente resolução para se tornarem capazes de substituir com eficiência o mundo real. Já os dispositivos necessários em aplicações de Realidade Aumentada não possuem esta necessidade. Em alguns casos, estes dispositivos podem ser até monocromáticos. Uma outra diferença que deve ser apontada é quanto à questão de registro (alinhamento), este crucial nas aplicações de Realidade Aumentada. Combinar objetos reais e virtuais exige que estes últimos sejam precisamente posicionados em relação ao mundo real. Já na Realidade Virtual toda cena é construída artificialmente e o posicionamento dos objetos é bem conhecido. Uma última diferença que pode ser mencionada, é sobre o volume de dados de entrada e de saída em ambos os casos. Na Realidade Virtual, as imagens geradas devem preencher todo o espaço visível. Além disso, também devem ser reproduzidos os estímulos que serão percebidos pelos demais sentidos. Conforme podemos deduzir, o volume dos dados de saída é muito grande se comparados com os dados de entrada, que correspondem a alguns poucos sensores, como os de movimento do usuário. Na Realidade Aumentada, ocorre exatamente o contrário. O volume de saída é reduzido justamente porque poucas imagens artificiais devem ser apresentadas, pois, conforme as definições, o mundo real deve predominar. De forma semelhante acontece com os estímulos que devem ser produzidos para os demais sentidos. Entretanto, as aplicações de Realidade Aumentada devem possuir muitos dados de entrada: em várias aplicações há um número grande de rastreadores produzindo dados que devem ser tratados com rapidez. Algumas aplicações necessitam de informações de movimento e profundidade dos objetos reais. Além disto, existem aplicações que lidam com bases de dados contextualizadas, que se configuram como mais uma entrada no sistema. Sendo assim, as aplicações de Realidade Aumentada devem tratar um grande volume de dados de entrada, se comparado à quantidade dos dados que devem ser produzidos como saída. As semelhanças e diferenças entre Realidade Aumentada e Realidade Virtual ajudam a caracterizar seus sistemas de forma única, inovadora e ainda pouco explorada. A motivação 12

para o desenvolvimento de aplicações e pesquisas na área de Realidade Aumentada vem do potencial de recursos e benefícios que ela pode trazer nas diversas áreas da atividade humana. 2.2 Componentes de um sistema de Realidade Aumentada 2.2.1 Gerador de Cena Gerador de cena é o dispositivo ou software responsável pela renderização da cena. Renderização não é um dos maiores problemas em sistema de RA, pois apenas alguns poucos objetos precisam ser renderizados. Além disso, muitas vezes os objetos a serem renderizados não necessitam ser foto-realistas para atender às necessidades da aplicação (Azuma, 1997). 2.2.2 Sistema de Rastreamento O rastreamento é uma tarefa fundamental em sistemas de AR devido aos problemas relacionados a registro (Azuma, 1993). Os objetos no mundo real e no mundo virtual devem estar alinhados de maneira apropriada, ou a ilusão de que os dois mundos coexistem estará comprometida. Muitas aplicações requerem registro preciso, especialmente em sistemas médicos (Holloway, 1995; Azuma, 1997). 2.2.3 Dispositivos da RA A tecnologia para sistemas de RA está em pleno desenvolvimento e a escolha de uma determinada solução vai depender das características de cada aplicação. Muitos dos displays para sistemas de RA são baseados em HMD (Head Mounted Display). Ao combinar o mundo real com o virtual, duas opções de tecnologia de display são válidas: ópticos e baseadas em vídeo. Cada uma dessas tecnologias tem vantagens e desvantagens e devem ser escolhidas de acordo com a necessidade de características específicas, tais como resolução desejada, campo de visão, estratégias de registro entre outras (Azuma, 1997). Tecnologias de display continuam sendo um fator limitante no desenvolvimento mais amplo de sistemas de RA. Ainda não foram desenvolvidos sistemas ópticos do tipo see-through que possuam capacidade suficiente de brilho, resolução, campo de visão e contraste para ser aplicado de forma transparente em aplicações gerais de RA. As iniciativas que estão sendo tomadas nessa direção não têm conseguido atingir os objetivos por não serem suficientemente portáveis, leves e de baixo custo. Ainda assim, vários avanços nesta área foram alcançados nos últimos anos como veremos a seguir. 13

2.3 Dispositivos e Displays Pode-se distinguir cinco grandes classes de sistemas de RA em função do tipo de display: Ópticos, baseados em retina, baseados em vídeo com uso de HMD, baseados em monitor e baseados em projeção. As seções seguintes mostram essas cinco classes, descrevendo o funcionamento de cada uma delas e ressaltando suas principais características. 2.3.1 HMD com tecnologia Óptica Os capacetes de RA com tecnologia óptica funcionam através da colocação de combinadores ópticos na frente do olho do usuário (Figuras 2.2). Esses combinadores são translúcidos, de tal maneira que o usuário consiga enxergar o mundo real através dele. Eles também são parcialmente reflexivos para que o usuário possa ver imagens virtuais geradas por saídas de vídeo acopladas ao capacete e refletidas nos combinadores. A Figura 2.3 apresenta um diagrama conceitual da tecnologia óptica. Como exemplos de sistemas ópticos de RA, pode-se citar aqueles utilizados em aplicações médicas. Um exemplo desse tipo de aplicação é o sistema de cirurgia guiada do MIT, focado em cirurgia cerebral (Grimson et al., 1998). Figura 2.2: HMD Óptico. Recentemente, HMD s ópticos estão sendo fabricados por empresas renomadas como Sony e Olympus e têm suporte para oclusões, acomodação variável (processo de focar os olhos em 14

Figura 2.3: Esquema de RA com HMD Óptico. objetos à uma distância particular). Há protótipos de tamanho bem reduzido que podem ser fixados em óculos convencionais como o da Figura 2.4. Figura 2.4: Eyeglass display com elemento holográfico. 2.3.2 Dispositivo Virtual de Retina O dispositivo virtual de retina foi inventado no HIT Lab (Human Interface Technology Lab) na universidade de Washington em 1991. O objetivo era produzir um display colorido, com muito brilho, boa área de visão, alta resolução e baixo custo. A empresa Microvision tem a licença exclusiva de comercialização destes dispositivos (Figura 2.5). Esta tecnologia tem várias aplicações em potencial, que vão desde aplicações militares à médicas. O dispositivo virtual de retina projeta raios modulares de luz de uma fonte elétrica diretamente na retina do olho, produzindo uma imagem rasterizada (Figure 2.6). O usuário tem a ilusão de estar vendo a imagem projetada como se estivesse a meio metro de um monitor de 14 polegadas. Na realidade, a imagem está na retina de seu olho e não no monitor. A imagem 15

vista tem excelente qualidade e suporta visão estéreo, cores, amplo campo de visão e livre de efeitos de alternância de brilho, devido à baixas taxas de renovação de imagem (flickering) (Chinthammit et al., 2001; Pryor et al., 1998). Figura 2.5: Dispositivo Virtual de Retina. 2.3.3 HMD baseado em vídeo Realidade aumentada com HMD s convencionais é obtida mesclando-se informações de vídeo obtidas por uma câmera com objetos virtuais (Figura 2.7). Esta abordagem é um pouco mais complexa se comparada a dispositivos ópticos, pois requer a localização apropriada da câmera que está sendo utilizada para capturar os quadros de vídeo (Figura 2.8). Entretanto, a composição do vídeo obtido do mundo real com os objetos virtuais é mais fácil, pois tem-se o controle do processamento de ambos canais de entrada. A combinação da imagem real com a imagem gráfica pode ser feita através de técnicas de chroma-keying ou baseada na informação de profundidade. Chroma-keying consiste na substituição do pano de fundo de uma imagem por outra imagem. O pano de fundo é formado por uma única cor, digamos verde, cor esta que nenhum objeto virtual deve utilizar. A combinação consiste em substituir a cor verde da imagem virtual pela imagem do mundo real. Uma composição mais sofisticada consiste na utilização da informação de profundidade da cena real. Se o sistema possuir a informação de profundidade de cada pixel da mesma, é possível comparar cada pixel da imagem real com os da imagem virtual e superpor os objetos 16

Figura 2.6: Esquema do Dispositivo Virtual de Retina. virtuais com os objetos reais. Outra maneira de conseguir esse resultado é através da posse do modelo tridimensional da cena. Outras técnicas de oclusão em ambientes de realidade aumentada são apresentadas em (Fuhrmann & et. al., 1999). 2.3.4 Baseados em Monitor Realidade Aumentada baseada em monitor pode utilizar monitores convencionais como dispositivo de apresentação. Esse tipo de esquema é o mais simples de ser construído pois, em sua configuração mais convencional, exige apenas um monitor e uma câmera como equipamento necessário. Pode-se opcionalmente utilizar dispositivos móveis como Palmtops ou similares como dispositivo de apresentação. O processo consiste basicamente em mesclar as imagens capturadas por uma câmera com objetos virtuais devidamente alinhados (Figuras 2.9 e 2.10). 2.3.5 Dispositivos de Projeção Dispositivos de Realidade Aumentada baseada em projeção fazem uso de objetos reais como superfícies de projeção, como nas Figuras 2.11 e 2.12. Esta técnica tem aplicações na indústria, visualização de produtos, etc. Realidade Aumentada baseada em projeção é bastante adequada para situações com múltiplos usuários. Para obter bons resultados, o alinhamento entre os projetores e as superfícies de projeção deve ser feitos com precisão. 17

2.3.6 Dispositivos Hápticos Figura 2.7: Realidade aumentada baseada em HMD. Analogamente aos sistemas de realidade virtual, a realidade aumentada necessita de algumas facilidades através das quais um usuário pode fisicamente interagir com os objetos virtuais da mesma forma como faria com objetos reais. Dispositivos hápticos fornecem esses recursos adicionando sensação de toque ao usuário quando em contato com objetos virtuais. Considere uma caneca virtual que foi adicionada virtualmente à mesa real do usuário. Com uma luva especialmente projetada, um usuário poderia fisicamente pegar a caneca e segurá-la em suas mãos. Com sensores na palma das mãos e na ponta dos dedos da luva, o usuário poderia sentir o formato e a textura da superfície da caneca. Se o ambiente virtual tiver o efeito de gravidade simulado, ao soltar a caneca virtual, a mesma seria projetada em direção ao solo ou a mesa. Desta forma, se corretamente simulado, o usuário não teria condição de diferenciar fisicamente a caneca virtual da caneca real. Embora a concepção seja muito simples, estes dispositivos hápticos estão em constante pesquisa uma vez que criar sensações físicas de forma realista é um problema complexo. Vários dispositivos foram propostos, desde dispositivos com force-feedback até verdadeiras armaduras projetadas para serem colocadas nos braços e pernas de um usuário. Um levantamento detalhado dos vários dispositivos hápticos que podem ser utilizados em sistemas de realidade aumentada foi apresentado em (Srinivasan & Basdogan, 1997). 18