MINISTÉRIO DA DEFESA

Tamanho: px
Começar a partir da página:

Download "MINISTÉRIO DA DEFESA"

Transcrição

1 MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO Capitão-Tenente (T) LUCIENE CARVALHO CORRÊA DE SOUZA UMA ABORDAGEM PARA FUSÃO DE DADOS UTILIZANDO O MODELO JC3IEDM E A TÉCNICA DE RELACIONAMENTO DE DADOS Rio de Janeiro 2014

2 INSTITUTO MILITAR DE ENGENHARIA Capitão-Tenente (T) LUCIENE CARVALHO CORRÊA DE SOUZA UMA ABORDAGEM PARA FUSÃO DE DADOS UTILIZANDO O MODELO JC3IEDM E A TÉCNICA DE RELACIONAMENTO DE DADOS Dissertação de Mestrado apresentada ao Curso de Mestrado em Sistemas e Computação do Instituto Militar de Engenharia, como requisito parcial para obtenção do título de Mestre em Sistemas e Computação. Orientador: Prof. Wallace Anacleto Pinheiro - D.Sc Rio de Janeiro 2014

3 c2014 INSTITUTO MILITAR DE ENGENHARIA Praça General Tibúrcio, 80 Praia Vermelha Rio de Janeiro RJ CEP: Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluílo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento. É permitida a menção reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa. Os conceitos expressos neste trabalho são de responsabilidade do autor e do orientador. XXX.XXX Souza, Luciene Carvalho Corrêa de S999c Uma abordagem para fusão de dados utilizando o modelo JC3IEDM e a técnica de relacionamento de dados/luciene Carvalho Corrêa de Souza. orientada por Wallace Anacleto Pinheiro. Rio de Janeiro: Instituto Militar de Engenharia, XXXp. : il Dissertação (mestrado) Instituto Militar de Engenharia Rio de Janeiro, Curso de sistemas e computação teses, dissertações. 2. Fusão de Dados. 3. Sobrecarga de Informação. 4. Comando e Controle. 5. Consciência Situacional. 6. Relacionamento de dados. 7. JC3IEDM. 8. Redes Bayesianas. 9. Qualidade da Informação. 10. Multicritério. CDD

4 INSTITUTO MILITAR DE ENGENHARIA Capitão-Tenente (T) LUCIENE CARVALHO CORRÊA DE SOUZA UMA ABORDAGEM PARA FUSÃO DE DADOS UTILIZANDO O MODELO JC3IEDM E A TÉCNICA DE RELACIONAMENTO DE DADOS Dissertação de Mestrado apresentada ao Curso de Mestrado em Sistemas e Computação do Instituto Militar de Engenharia, como requisito parcial para obtenção do título de Mestre em Sistemas e Computação. Orientador: Prof. Wallace Anacleto Pinheiro - D.Sc. Aprovada em de de 2014 pela seguinte Banca Examinadora: Prof. Wallace Anacleto Pinheiro - D.Sc. do IME - Presidente Profa. Maria Cláudia Reis Cavalcanti, D.Sc. do IME Prof. Ricardo Oliveira Barros, D.Sc. da GPE/UFRJ Rio de Janeiro

5 Ao meu marido Alexandre e ao meu filho, carinhosamente chamado de Vinny, pelos períodos de ausência e apoio incondicional. A minha querida mãe Iris, exemplo de amor e dedicação. Amo vocês. 4

6 AGRADECIMENTOS Agradeço a Deus. À Marinha do Brasil, que me deu essa Missão e que agora me sinto feliz em considerá-la cumprida e com a felicidade de contribuir para a resolução de um problema naval. À minha mãe Iris, que sempre me incentivou a estudar e cujo exemplo de doçura e amor à vida fazem parte de minhas lembranças como fonte de inspiração, saudade e amor. À minha doce afilhada Maria Vitória, minha primeira filha, e à minha irmã Cristiane, que sempre me incentivou a cuidar mais de mim na torcida por meu sucesso no Mestrado e na vida. Aos meus colegas que, ao longo dessa dissertação, se tornaram grandes colaboradores e amigos: Mariana Alencastro e Phillipe Cavalcanti, que compartilharam madrugadas pela Busca e Recuperação da Informação. Edgard Bernardo e Patrick Lara, amigos também de armas, que dividiram ansiedades (muitas) relacionadas ao Mestrado e à vida, com ouvidos sempre disponíveis. À minha chefe Comandante Valéria, que me incentivou e possibilitou a flexibilização de horários e férias, cruciais no final da elaboração do texto, e ao Comandante Azevedo, do Centro de Análise de Sistemas Navais (CASNAV), que, juntamente com o Suboficial Josué, da Diretoria de Comunicações e Tecnologia da Informação da Marinha, possibilitaram os acertos administrativos e extensão de prazo, tão necessários para a conclusão desse trabalho. Aos colegas do CASNAV, em especial minha orientadora técnica e amiga Lis que, mesmo concluindo o Doutorado, sempre dispunha de algum tempo para me aconselhar, sempre com palavras de apoio e incentivo. À minha equipe do CASNAV, que me preservou ao máximo de fainas e aborrecimentos, principalmente na proximidade da data de conclusão. Aos professores Maria Cláudia Yoko e Ricardo Barros, por aceitarem participar da banca, contribuindo para o êxito do trabalho. Aos professores e funcionários da SE/8 do Instituto Militar de Engenharia. E a todos aqueles, e não foram poucos, que contribuíram com essa dissertação de Mestrado, por meio de opiniões, críticas, apoio ou palavras de incentivo. 5

7 E, para o final, restaram grandes pessoas, que, sem dúvida alguma, foram cruciais para a conclusão deste trabalho. Ao meu orientador e amigo Prof. Wallace Anacleto, que acreditou em mim e no trabalho quando eu não mais acreditava. Sem sua insistência, compreensão e orientação segura, eu não teria uma Dissertação para apresentar. Exemplo como militar, acadêmico e pai, junto a sua esposa Bárbara e a seus dois filhos, Rafael e Matheus. E às pessoas mais importantes de minha vida, meu amado marido Alexandre e meu tão sonhado e esperado filho Marcus Vinícius, agradeço pela renovação que vocês proporcionam em minha vida, incutindo em mim a vontade de ser uma pessoa melhor, para vocês. Peço desculpas pelos períodos de afastamento, mas somente um companheiro e pai maravilhoso como Alexandre poderia assegurar a tranquilidade necessária para a conclusão desta Dissertação. Terminou. Fim. Ou começo. Obrigada. Luciene Carvalho Corrêa de Souza 6

8 O covarde nunca começa, o fracassado nunca termina, o vencedor nunca desiste. (Norman Vicente Peale) 7

9 SUMÁRIO LISTA DE ILUSTRAÇÕES...09 LISTA DE TABELAS INTRODUÇÃO Problema Objetivos Gerais e Específicos Metodologia Organização do Trabalho TRABALHOS RELACIONADOS Visão Geral Fusão de Dados Estratégias de Fusão de Dados Modelo JDL Relacionamento de Dados e Deduplicação Processo de Relacionamento de Dados Limpeza e Padronização Técnicas de Indexação e Classificação Considerações Finais TECNOLOGIAS UTILIZADAS Modelo de Dados Critérios de Qualidade e Redes Bayesianas Ferramenta ETL Considerações Finais SOLUÇÃO PROPOSTA Arquitetura Conceitual Visão Geral Alinhamento Sintático Alinhamento das Qualidades Alinhamento Semântico-estrutural Arquitetura de Implementação EXPERIMENTOS Visão Geral Configuração do Ambiente XML Etl XML Cft XML Smt Prova de Conceito Similaridade Global

10 5.3.2 Tempo+contexto Tempo+descrição Tempo+localização Tempo+localização+descrição Tempo+localização+descrição+contexto Análise dos Resultados Obtidos CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS APÊNDICE:

11 LISTA DE ILUSTRAÇÕES FIG. 1-1 Troca de Informações em um ambiente de C FIG. 1-2 Operação Conjunta na Região Amazônica FIG. 2-1 O ciclo de inteligência, adaptado de Nakamura FIG. 2-2 Ciclo OODA FIG. 2-3 Modelo Dasarathy FIG. 2-4 Modelo de fusão de dados JDL FIG. 2-5 Processo de Relacionamento de Dados FIG. 3-1 Entidades Independentes do JC3IEDM FIG. 3-2 Relacionamento entre as Entidades Utilizadas FIG. 3-3 Atributos da entidade OBJECT-TYPE FIG. 3-4 Atributos da entidade OBJECT-ITEM FIG. 3-5 Atributo referente à velocidade do objeto FIG. 3-6 Atributos referentes a latitude e longitude do objeto FIG. 3-7 Atributos da entidade REPORTING-DATA FIG. 3-8 Entidade REPORTING-DATA-ABSOLUTE-TIMING FIG. 4-1 Arquitetura / visão geral FIG. 4-2 Arquitetura / alinhamento sintático FIG. 4-3 Visão de processo (alinhamento sintático) FIG. 4-4 Arquitetura / alinhamento das qualidades FIG. 4-5 Rede bayesiana para mensurar a qualidade da informação FIG. 4-6 Correlação entre o modelo JC3IEDM e a estrela de critérios FIG. 4-7 Arquitetura / alinhamento semântico-estrutural FIG. 4-8 Arquitetura de Implementação FIG. 4-9 Estrutura de pastas dos plugins XML Etl, XML Cft e XML Smt FIG Tela inicial do Apatar FIG Exibição dos plugins no Apatar FIG Projeto de comparação de quatro arquivos XMLs FIG. 5-1 Projeto padrão.aptr para fusionamento de duas fontes distintas FIG. 5-2 Configurações do plugin XML Etl da primeira fonte de dados FIG. 5-3 Configurações do plugin XML Etl da segunda fonte de dados FIG. 5-4 Configurações do plugin XML Cft da primeira fonte de dados FIG. 5-5 Configurações do plugin XML Cft da segunda fonte de dados FIG. 5-6 Interface do plugin XML Smt FIG. 5-7 Valores de corte das similaridades FIG. 5-8 Gráfico Sim Global (tempo+localização+descrição) FIG. 5-9 Gráfico Sim Global (tempo+localização+descrição+contexto) FIG Configuração XML Smt critérios tempo e contexto FIG Configuração XML Smt critérios tempo e descrição FIG Configuração XML Smt critérios tempo e localização FIG Configuração XML Smt critérios tempo, localização e descrição FIG Configuração XML Smt critérios tempo, localização, descrição e contexto FIG Record Linkage

12 FIG Deduplicação FIG Gráfico Precisão X Cobertura das estratégias utilizadas

13 LISTA DE TABELAS TAB. 2-1 Tabela Comparativa entre os principais Modelos de Fusão de dados TAB. 2-2 Tabela Comparativa entre JDL e Relacionamento de Dados TAB Tabela Comparativa entre JDL, Relacionamento de Dados e a Arquitetura Proposta TAB. 4-2 Critério precisão TAB. 4-3 Critério credibilidade TAB. 4-4 Critério confiança TAB. 4-5 Classificação e valores atribuídos para os estados do critério precisão TAB. 4-6 Classificação e valores atribuídos para os estados do critério credibilidade TAB. 4-7 Classificação e valores atribuídos para os estados do critério confiança TAB. 4-8 Matriz esparsa do critério contexto (tipo/ambiente) TAB. 4-9 Especificações da Ferramenta TAB. 5-1 Análise comparativa Sim Global (tempo+localização+descrição) TAB. 5-2 Análise comparativa Sim Global (tempo+localização+descrição+contexto) TAB. 5-3 Resultados de tempo+contexto TAB. 5-4 Resultados de tempo+descrição TAB. 5-5 Resultados de tempo+localização TAB. 5-6 Resultados de tempo+localização+descrição TAB. 5-7 Resultados de tempo+localização+descrição+contexto TAB. 5-8 Análise comparativa entre as diversas estratégias

14 RESUMO Atualmente a gestão da sobrecarga de informações tornou-se um grande desafio. Como gerenciar todos estes dados, que são apresentados em formatos diversos e oriundos de fontes heterogêneas? Como melhor subsidiar a tomada de decisão, cuja eficiência está diretamente relacionada à qualidade apresentada pelas informações disponíveis? O problema vai além da integração de esquemas e a fusão de dados é apresentada como uma boa solução para a redução da sobrecarga e melhoria da qualidade da informação. Entretanto, a fim de realizar a fusão de dados de modo eficaz, outro problema precisa ser abordado: como identificar, dentre toda a informação recebida, quais são os dados que representam o mesmo objeto (entidade) no mundo real? Assim, esta Dissertação propõe uma arquitetura para fusão de dados provenientes de arquivos XMLs distintos, em um ambiente de Comando e Controle, permitindo identificar corretamente as informações referentes ao mesmo objeto e fusioná-las de forma mais precisa, acrescentando qualidade e confiança à informação final exposta ao Comando. E assim, contribuir para a obtenção da consciência situacional, melhoria da tomada de decisão e minimização da sobrecarga de dados. Para isto, foi utilizada a técnica de relacionamento de dados (record linkage), inspirada na aplicação de uma matriz esparsa e múltiplos critérios para obter a similaridade entre os objetos, além da preocupação em mensurar a qualidade da informação que, neste trabalho foi obtida pela construção de uma rede bayesiana a partir dos critérios precisão, confiabilidade e credibilidade da entidade REPORTING- DATA do Modelo de Dados de Interoperabilidade da Organização do Tratado do Atlântico Norte (OTAN), denominado JC3IEDM (Joint Consultation, Command and Control Information Exchange Data Model). 13

15 ABSTRACT Currently, information overload management became a great challenge. How to manage all these data, which are presented in diverse formats and come from heterogeneous sources? How should the decision-making be further subsidized, which efficiency is directly related to the presented quality by the available information? The problem goes beyond of the scheme integration and data fusion is presented as a good solution for the overload reduction and improvement of the information quality. However, in order to carry out a data fusion effectively, another problem needs to be discussed: how to identify, among all received information, what are the data that represents the same object (entity) in the real world? Thus, this Dissertation proposes an architecture for performing data fusion on data originated from distinct XML files, in a Command and Control environment, so it allows to correctly identify referred information to the same object and to fusion the data more precisely, adding quality and confidence to the exposed final information to the Command. And thereby contributing to achieving situation awareness, improvement of the decision-making, and minimization of data overload. To this end, the data relationship technique was used (record linkage), inspired by the application of a sparse matrix and multiple criteria to obtain the similarity among objects, in addition to its concern in measuring information quality which, in this work has been obtained by the construction of a Bayes network from the precision criteria, reliability and credibility of the REPORTING-DATA entity of the Interoperability Data Model of the North Atlantic Treaty Organization (NATO), nominated JC3IEDM (Joint Consultation, Command and Control Information Exchange Data Model). 14

16 1 INTRODUÇÃO Na era globalizada, a informação passou a ser considerada como capital precioso, cujo valor estratégico em uma organização é, muitas vezes, superior ao valor de seus recursos materiais, financeiros e de produção (Fiorini & Jabbour, 2014 apud Moresi, 2000). Assim, a boa gestão da informação é um dos fatores decisivos para o sucesso de uma empresa, pois, segundo Marques (2012) e Stábile (2001) as tomadas de decisão são dependentes da informação nas quais elas se baseiam, ou seja, a qualidade da decisão é influenciada pela qualidade da informação obtida. A crescente disponibilidade de novas tecnologias da informação, tais como: sinais de sensores, imagens, vídeos, dados estruturados, semiestruturados e textos, proporciona o aumento contínuo do volume de dados eletrônicos disponíveis para tratamento pelos diversos Sistemas de Apoio à Decisão. Neste contexto, a maioria dos Sistemas, expostos a inúmeras fontes de dados, tendem a priorizar a geração, o acúmulo e a recuperação de informações, visando disponibilizar uma base de dados diversa e extensa para consulta dos decisores organizacionais (R. N. M. dos Santos, 2000). Contudo, a existência de informação em excesso, oriunda de fontes heterogêneas, pode causar sobrecarga de informação, que é caracterizada pela dificuldade em se lidar com uma grande quantidade de informação. E que prejudica a capacidade do decisor determinar o que é realmente importante, interferindo em sua tomada de decisão (Pinheiro, 2004; Stábile, 2001). Portanto, a gestão de informações tornou-se um grande desafio para uma organização, cujo ambiente de concorrência acirrada e crescente exige velocidade e embasamento na tomada de decisão por seus gerentes, que necessitam de informações de qualidade como principal instrumento para a decisão (Marques, 2012; R. N. M. dos Santos, 2000). Para resolver este desafio da sobrecarga de dados, pode-se usar das estratégias relacionadas à fusão de dados (CARVALHO et al., 2003; HARRIS & WHITE, I., 1987; MESCHESI, 2010; PUTTEN & GUPTA, 2002; e DONG & NAUMANN, 2009) que objetivam agrupar informações provenientes de diversas fontes a fim de alcançar inferências que não seriam possíveis ou seriam mais 15

17 limitadas, caso fossem produzidas pelos dados oriundos de uma só fonte (Júnior, 2010). Desta forma, os dados fusionados geralmente serão mais precisos, por extraírem da quantidade de dados inicial as informações relevantes, com melhoria significativa da qualidade da informação, subsidiando de forma mais eficiente a tomada de decisão. A fusão de dados pode ser aplicada em diversas áreas, desde que haja mais de uma fonte de dados fornecendo informações que precisam ser combinadas qualitativamente a fim de disponibilizar algo útil ao decisor. Na área militar, o decisor, denominado Comandante, precisa obter a consciência situacional ou situational awareness por meio do domínio das informações que influenciam no teatro de operações (ambiente, fatores críticos e vulnerabilidades do oponente e de suas próprias forças), a fim de ter as condições mínimas de decidir, frente a situação percebida, coerentemente com os objetivos de sua missão (C. A. de Oliveira, 2009; Padilha, 2010; J. C. dos Santos, 2006). Assim, é essencial para o Comandante ter a visão geral dos acontecimentos (consciência situacional), de modo a melhor suportar a ordem a ser dada, com a missão de salvar e resguardar vidas. Entende-se por Comando e Controle (C2) o exercício da autoridade, por intermédio de uma sistemática do processo decisório, estando baseada no uso dos meios disponíveis (Santos, 2006). Isto posto, os Sistemas que apoiam a esfera decisória no contexto de C2 (FIG. 1-1) com informações úteis à tomada de decisão, permitindo atingir a consciência situacional do teatro de operações (TO), são denominados Sistemas de Comando e Controle (TARANTI, 2012). E ainda no contexto de C2, considera-se a citação de Carl Von Clausewitz (Clausewitz, 1955): A guerra é o reino da incerteza: três quartos dos fatores ao quais as ações estão baseadas são cercados por uma maior ou menor névoa de incertezas... o Comandante deve ser capaz de trabalhar em meio onde os olhos não podem ver; onde seus melhores poderes dedutivos não podem penetrar sempre; e onde, em função das constantes mudanças, ele raramente se familiariza. 16

18 Assim, deste Clausewitz, os Sistemas de Comando e Controle objetivam minimizar essa névoa de incertezas e prover melhores condições para a tomada de decisão do Comandante, que, por receber um grande fluxo de informações, como elemento central de decisão (FIG. 1-1), necessita de subsídios de melhor qualidade para alcançar a consciência situacional. FIG Troca de Informações em um ambiente de C2 (Padilha, 2010) Em um ambiente de Comando e Controle, o dano causado pela sobrecarga de informações é potencializado, pois neste contexto existe a necessidade de se tomar inúmeras decisões de forma rápida, baseadas em informações por vezes incompletas e sob forte pressão, e cujas consequências podem ser catastróficas, pois envolvem vidas humanas, seja em uma guerra (Oliveira, 2009), operações combinadas, situações de emergência civil (Padilha, 2010), ou ações para Garantia da Lei e da Ordem (GLO). Além de operações de pacificação de comunidades do Rio de Janeiro e grandes eventos, tais como: Jogos Mundiais Militares (2011), Olimpíadas (2016) e Copa do Mundo (2014), onde as Forças Armadas tiveram ou terão que agir de forma coordenada com outras instituições. Portanto, um Sistema de Comando e Controle deve agregar valor ao dado (Stábile, 2001), por meio da transformação deste dado bruto em informações ou conhecimentos válidos para a solução de um problema, sendo capaz de 17

19 subsidiar o decisor, que precisa alcançar a consciência situacional, pois somente assim será possível ao Comando antecipar-se a eventos apoiando-se nas lições do passado, ou seja, decidindo a partir do total domínio das informações que influenciam no Teatro de Operações (Oliveira, 2009). Dessa forma, surge um grande problema, que é a identificação dos dados que representam o mesmo objeto no mundo real (Pinheiro, 2010). 1.1 PROBLEMA Identificar dados que se referem ao mesmo objeto no mundo real, considerando fontes de dados heterogêneas e diversas, é um problema que tem afetado as Forças Armadas brasileiras. Dentro deste contexto, a Marinha do Brasil, por meio do CASNAV Centro de Análises de Sistemas Navais é o órgão responsável pelo desenvolvimento do Sistema de Planejamento Operacional Militar (SIPLOM) no âmbito do Ministério da Defesa, que exibe o posicionamento, as características e os interrelacionamentos dos meios constituídos em operações de paz, crise ou guerra 1. São as operações conjuntas, que envolvem meios de duas ou mais Forças (Marinha, Exército e Força Aérea), podendo haver também Órgãos ou Agências civis, desde que todos estejam sob um comando único (Negrão, 2013). Ou seja, o SIPLOM recebe as informações de operações conjuntas, oriundas dos diversos Sistemas de C2 da Marinha, Exército e Força Aérea e, ocasionalmente, de outros órgãos. E como os dados podem ser oriundos de muitas fontes de dados externas e heterogêneas, entre elas sensores, que capturam informações de áreas sobrepostas, muitas destas informações são iguais ou similares. Então surge um grande problema que é identificar quais dados se referem a um mesmo objeto. Assim, o SIPLOM não consegue apresentar ao decisor as informações tratadas e fusionadas sobre o referido objeto, que, por vezes, é apresentado mais de uma vez com informações repetidas ou mesmo conflitantes sem minimizar a sobrecarga de informações e prejudicando a tomada de decisão. 1 https://www.casnav.mar.mil.br/s/?q=node/52 18

20 Para exemplificar, a FIG. 1-2 apresenta uma operação conjunta entre as Forças Armadas e outros órgãos civis, como a Polícia Federal, que precisam atuar conjuntamente em operações de âmbito nacional, onde se faz necessário identificar corretamente os objetos envolvidos e apresentar as informações mais precisas sobre estes objetos. Para se afirmar que um objeto do mundo real foi identificado corretamente deve-se garantir a correta identificação das informações (dentre todas as informações oriundas de fontes diversas) que se referem a esse objeto. FIG Operação Conjunta na Região Amazônica Na FIG. 1-2, a partir da certeza de que todas as informações recebidas são relacionadas ao mesmo objeto (navio), facilmente pode-se traçar sua derrota (trajetória percorrida pelo navio), estimar sua posição, entre outros. Entretanto, se não há esta certeza, os três pontos podem se referir a dois ou três objetos diferentes. Assim, identificar quais informações são referentes ao mesmo objeto é crucial. 19

21 Observa-se que estratégias de fusão de dados normalmente são muito dependentes da aplicação, pois, a partir do fato de que os problemas de fusão de dados não podem ser padronizados ou comparados entre si (Khalifa & Alouani, 2009; Meschesi, 2010), não existe um algoritmo ou uma única solução que se adeque a todos os problemas de fusionamento. Assim, a avaliação da melhor solução em fusão de dados depende essencialmente do problema, além de outros aspectos envolvidos, tais como: tipos de dados envolvidos, requisitos da aplicação e níveis desejados de precisão e confiabilidade (Khalifa & Alouani, 2009; Esteban et al., 2005 e Meschesi, 2010). Apesar deste fato, este trabalho propõe uma estratégia que pode ser utilizada em diversos cenários, desde que os sistemas envolvidos sejam baseados no modelo de dados do MIP 2, o Joint Consultation, Command and Control Information Exchange Data Model (JC3IEDM), utilizando-o para a troca de informações. Neste contexto, é preciso identificar se as informações das diversas fontes são referentes a um mesmo objeto para, em seguida, analisar como proceder a essa fusão e como apresentar o dado, de maneira que, por exemplo, a posição apresentada esteja mais próxima da posição real. 1.2 OBJETIVOS GERAIS E ESPECÍFICOS O objetivo geral deste trabalho é identificar, dentre as informações oriundas de fontes diversas, que obedeçam às especificações do MIP referente ao JC3IEDM, aquelas que se referem a um mesmo objeto para, em seguida, fusioná-las e apresentar ao decisor a informação mais atual e correta referente àquele objeto, contribuindo para minimização da sobrecarga de dados e melhoria da tomada de decisão. E para alcançar esse objetivo foram propostos os seguintes objetivos secundários: Propor uma arquitetura para fusionar adequadamente as informações recebidas das diversas fontes de dados (Capítulo 4, Seção 4.1); 2 Multilateral Interoperability Programme da Organização do Tratado do Atlântico Norte (OTAN), disponível em: https://mipsite.lsec.dnd.ca/pages/whatismip_3.aspx. 20

22 Implementar uma ferramenta baseadas na arquitetura e técnicas propostas (Capítulo 4, Seção 4.2); e Realizar experimentos para avaliar o modelo proposto (Capítulo 5). 1.3 METODOLOGIA A fim de alcançar os objetivos descritos anteriormente, foi realizado um estudo de natureza qualitativa utilizando um conjunto de dados simulados tomando por base dados reais. Em virtude da natureza militar da informação e seu respectivo sigilo não foi possível a utilização de dados reais. Os dados simulados atenderam aos requisitos do Schema XML 3 definido pelo modelo JC3IEDM, proposto pela Organização do Tratado do Atlântico Norte (OTAN), como será visto no Capítulo 3, e contemplando situações complexas de identificação de objetos, visando descrever a realidade de um Sistema de Comando e Controle. A pesquisa realizada foi exploratória, sendo que as referências bibliográficas foram baseadas em revistas e anais de congressos disponibilizados na Internet, bem como em repositórios digitais de periódicos disponibilizados na biblioteca do Instituto Militar de Engenharia. Todo o gerenciamento das referências bibliográficas foi feito por meio da ferramenta Mendeley 4. Essas pesquisas subsidiaram a proposta de uma arquitetura de fusão de dados, que foi implementada utilizando a linguagem Java e as ferramentas Apatar 5, Lucene 6 e Nética 7, que permitiram validar a estratégia proposta, por meio da realização de experimentos e análise dos resultados obtidos. 3 No XML Schema estão definidas as regras de validação (esquemas) para documentos no formato XML (EXtensible Markup Language). 4 ferramenta de gerenciamento de referências, disponível em: 5 ferramenta ETL open source, disponível em: 6 framework para pesquisa de texto, open source, disponível em 7 https://www.norsys.com/netica.html 21

23 1.4 ORGANIZAÇÃO DO TRABALHO Além do Capítulo 1, referente à Introdução, este trabalho está organizado de acordo com a estrutura a seguir: O Capítulo 2 apresenta os principais trabalhos relacionados de acordo com a área de estudo envolvida, seja fusão de dados, seus conceitos e metodologias, ou técnicas de relacionamento de dados (record linkage), importante na identificação de objetos similares. O Capítulo 3 relaciona as principais tecnologias aplicadas na solução do problema, com destaque ao conceito de Redes Bayesianas, utilizado em conjunto com os critérios da classe REPORTING-DATA do modelo de dados proposto pela OTAN no cálculo de qualidade da informação obtida. O Capítulo 4 é dedicado à descrição da solução proposta, com detalhamento da arquitetura conceitual, ao mapeamento dos diversos alinhamentos propostos e ao delineamento da arquitetura de implementação dos componentes integrantes da ferramenta desenvolvida. O Capitulo 5 descreve os experimentos realizados, suas configurações referentes aos pesos dos critérios de similaridade e respectiva análise dos resultados obtidos. E, por fim, o Capítulo 6 relaciona as contribuições deste trabalho, bem como sugestões para trabalhos futuros. 22

24 2 TRABALHOS RELACIONADOS 2.1 VISÃO GERAL Com o objetivo de conhecer e entender os requisitos para um Sistema de Fusão de Dados foi necessário pesquisar os Modelos e trabalhos disponíveis nessa área, considerando-se, principalmente, a fusão de dados de mais altonível, prevista nos níveis 2 e 3 do modelo de Dasarathy (1997). Da mesma forma, foi importante o estudo de técnicas disponíveis para auxiliar na resolução do problema de identificação de objetos do mundo real. Por isso, neste capítulo, os trabalhos relacionados são expostos de acordo com a natureza de sua contribuição, seja no entendimento do framework de fusão de dados mais estudado e referenciado (Modelo JDL), seja na resolução do problema de identificação de objetos do mundo real por meio das técnicas de relacionamento de dados (record linkage) e deduplicação. 2.2 FUSÃO DE DADOS Os conceitos de fusão e de integração de dados, por vezes, são confundidos, apesar de apresentarem objetivos ligeiramente distintos para a área de Banco de Dados. A integração de dados é mais abrangente e contempla qualquer forma de combinação dos dados que tenha como propósito a construção de uma única base a partir de variados conjuntos de dados (Meschesi, 2010). E, dentre as soluções de integração, existem diversas abordagens, como: a unificação de modelos de dados, de tipos de bancos, de modelos de trocas de dados, dentre outros (Meschesi, 2010 apud Dong & Naumann, 2009). Entretanto, a fusão de dados está mais relacionada a técnicas para redução do conjunto (sobrecarga de informação), podendo ser considerada uma parte da integração de dados (Meschesi, 2010 apud Dong & Naumann, 2009). A integração de dados se refere à combinação de bases de dados diferentes em um único repositório, por meio da integração dos esquemas dos bancos de dados existentes ou propostos em um esquema global ou unificado (Batini, 23

25 Lenzerini & Navathe, 1986; Batini, Ceri & Navathe, 1992 e Ozsu & Valduriez, 2011). Assim, na integração de dados objetiva-se prover uma visão lógica unificada dos dados, contribuindo para a maior disponibilidade dos mesmos para as aplicações, que não precisam lidar com diversas fontes, interfaces e diferentes representações dos dados (Batini et al., 1986). No entanto, a fusão de dados preocupa-se além, pois objetiva maximizar a utilidade das informações, eliminar redundâncias e diminuir a incerteza, contribuindo para o aumento da disponibilidade de informações (Júnior, 2010), onde nenhuma informação pode ser considerada tão ruim de modo que deva ser totalmente descartada da análise, e nenhuma informação pode ser considerada tão boa para ser totalmente considerada como essencial para a análise do problema (Coutto Filho; Souza & Schilling, 2007). Ou seja, a fusão de dados destina-se a melhorar a qualidade, a confiabilidade e a credibilidade da informação final por meio do agrupamento de informações de fontes heterogêneas, objetivando obter inferências mais eficientes e mais precisas do que se as informações fossem oriundas de uma fonte única (Lee, Lee; Park & Elmasri, 2010 e Hui, 2008). Inicialmente, as pesquisas acadêmicas que utilizavam técnicas de fusão de dados e informações destinavam-se a solução de necessidades militares. E, desde a década de 1970, com a evolução nas comunicações e maior disponibilidade de informações, o âmbito de áreas de aplicação para o fusionamento de dados e informações aumentou significativamente, abrangendo atualmente domínios diversos, tais como: defesa estratégica/tática; segurança; gerência de crises e desastres; diagnóstico de falhas; aplicações biomédicas; gerência de ambientes; aplicações da indústria, entre outras (Hui, 2008). Cabe observar que o foco principal da maioria das pesquisas em fusão de dados concentra-se na fusão de sensores (baixo-nível), cujos desafios são intimamente ligados à heterogeneidade das informações, principalmente, ao fato dos dados serem oriundos de diversas fontes. Entretanto, a complexidade dos desafios apresentados pela fusão de dados ou informações de mais alto nível são mais difíceis de tratar, por apresentarem uma solução de equilíbrio entre diversos fatores: gerenciamento das fontes de informação, sejam elas sensores 24

26 ou não; medição de performance; classificadores múltiplos; multimétricas; descoberta de conhecimento; métodos completos; redes de sensores híbridos, e outros (Lee et al., 2010 e Hui, 2008). Consequentemente, de acordo tanto com a complexidade do problema que se objetiva resolver, quanto com o nível de refinamento da informação associada aos dados, a fusão de dados pode envolver o uso de técnicas, entre as quais: processamento de sinais, estatísticas de estimação, reconhecimentos de padrões, inteligência artificial e técnicas de sistemas de informação (Júnior, 2010). Os métodos, técnicas e algoritmos utilizados na fusão de dados podem ser classificados de acordo com: o nível de abstração de dados, a finalidade, os parâmetros, o tipo de dados e base matemática. E ainda, de acordo com o objetivo do método, a fusão de informações pode ser realizada com finalidades diferentes, como: inferência, avaliação, classificação, agregação, entre outros (Nakamura, 2007). A fusão de dados, em uma primeira etapa, visa a associar as informações competitivas provenientes das múltiplas fontes (ou sensores), minimizando o número de dados redundantes. E, posteriormente, essa fusão permite realizar as interações complementares e cooperativas dos dados de modo a obter inferências que seriam praticamente impossíveis analisando isoladamente as diversas fontes de dados (C. A. de Oliveira, 2009). De maneira sucinta, a fusão de dados lida com teorias, algoritmos e ferramentas utilizadas para processar múltiplas fontes de dados, gerando um dado de saída que é, de alguma forma, melhor quando comparado com os dados de entrada individualmente, onde a definição precisa de melhor depende da aplicação (Nakamura, 2007) ESTRATÉGIAS DE FUSÃO DE DADOS Ao longo das últimas décadas, muitos modelos de processos têm sido propostos para a solução de fusão de dados e informações. Ou seja, são modelos que descrevem um conjunto de processos e como estes se relacionam. 25

27 E, abstraindo-se da implementação, descrevem as funcionalidades mínimas que um sistema de fusão de dados deve apresentar (Nakamura, 2007). Além do Joint Directors of Laboratories, aceito como referência em fusão de dados e informações, outros modelos foram propostos na literatura especializada para combinar as informações de múltiplas fontes: o ciclo de inteligência (Intelligence Cycle), o ciclo de controle de Boyd (ciclo OODA) e o modelo Dasarathy (Oliveira, 2009; Hui, 2008; Júnior, 2010 e Nakamura, 2007), apresentados em TAB TAB. 2-1 Tabela Comparativa entre os principais Modelos de Fusão de dados Conforme mostrado na TAB. 2-1, os modelos de fusão de dados foram apresentados tomando por base a classificação proposta por Nakamura (2007): Baseados em Atividade ou Baseados em Informação. Os modelos baseados em informação especificam seus estágios com base nos níveis de abstração de informações manipuladas pelo sistema de fusão de dados. Em contrapartida, os modelos baseados em atividades são especificados com base nas atividades que devem ser executadas por um sistema de fusão de informações, cujas atividades e sua correta sequência de execução são explicitamente especificados. A seguir são descritos os modelos de fusão de dados apresentados na TAB. 2-1, contemplando suas principais características e correlação com os níveis do modelo JDL. 26

28 Segundo Oliveira (2009), no ciclo de inteligência ou Intelligence Cycle (Shulsky & Schmitt, 2002), o processo é descrito como um ciclo aplicável para a modelagem do processo de fusão de dados. Como observado na FIG. 2-1, esse ciclo compreende as fases de coleta (obtenção de informações), de filtragem (comparação e correlação dos relatórios de inteligência associados, coletados anteriormente), de avaliação (fusão e análise de relatórios de inteligência agrupada) e de disseminação (distribuição das informações fusionadas para os decisores). Em comparação com o modelo JDL, a fase de coleta corresponde ao nível 0; a filtragem corresponde ao nível 1; a avaliação compreende os níveis 2 e 3; e a disseminação corresponde ao nível 4 (Nakamura, 2007). FIG. 2-1 O ciclo de inteligência, adaptado de Nakamura (2007). O ciclo de controle de Boyd ou ciclo OODA, foi proposto pela primeira vez por Boyd (1987) para modelar o processo militar de comando e controle (C2), sendo composto por quatro fases: observação, orientação, decisão e ação (FIG. 2-2). Na primeira fase, observação, ocorre a coleta de informações do ambiente, o que corresponde ao nível 0 do modelo JDL. A avaliação da situação ocorre na fase orientação, que inclui funções dos níveis 1, 2 e 3 do modelo JDL. Na decisão, ocorre um processo de refinamento, semelhante à função do nível 4 do modelo JDL. A fase ação do OODA (executar a resposta planejada), apresenta uma correspondência ao nível 4 do JDL, onde ocorre o processo de otimização centrada no objetivo da missão. Cabe destacar que o ciclo de Boyd introduziu a noção de iteração e realimentação do processo (Hui, 2008; Nakamura, 2007; C. A. de Oliveira, 2009). 27

29 O ciclo OODA, segundo Nakamura (2007), é um modelo amplo que permite modelar as principais tarefas de um sistema. No entanto, OODA, bem como ciclo de inteligência, não são capazes de fornecer uma representação adequada das tarefas específicas de um sistema de fusão de informações. FIG. 2-2 Ciclo OODA, adaptado de (Nakamura, 2007). O modelo de Dasarathy (1997), ou DFD Model - Dado (Data), Característica (Feature), Decisão (Decision), dividiu a fusão de informações segundo o nível de abstração dos dados, quais sejam: dados (valores obtidos dos sensores), características (informações de nível intermediário) e decisão (símbolos ou crença em valores). Conforme pode ser observado na FIG. 2-3, o processo de fusão pode ocorrer tanto dentro dos níveis apresentados quanto entre estes níveis (Callegaro, Montez, Pinto, & Moraes12, 2014; Hui, 2008). No fusionamento dentro de cada nível, temos a fusão de baixo nível (DAI- DAO) onde os dados brutos (sensores) são fornecidos como entradas, que, combinadas diretamente em novos dados, são melhores que as entradas individuais, podendo ser utilizados com os demais níveis de fusão (fusão de dados). No nível médio (CAI-CAO) ou de características, a abstração dos dados possibilita a representação de um objeto de forma precisa e concisa (fusão de recursos). E, na fusão de alto nível (DEI-DEO) ou decisão, ocorre a tomada de decisão baseada nas informações provenientes das demais camadas, com a incorporação de conhecimentos a priori e informações específicas sobre a tomada de decisão (fusão de decisões). 28

30 No fusionamento multiníveis ou entre os níveis, a entrada pode ser um dado e a saída uma característica (DAI-CAO), refletindo a seleção de uma característica ou extração de características. Quando a entrada é uma característica e a saída uma decisão (CAI-DEO), observa-se o reconhecimento de padrões ou processamento de padrões (Fernandes, 2013). FIG. 2-3 Modelo Dasarathy (Nakamura, 2007). O modelo Dasarathy é bem sucedido ao especificar os principais tipos de fusão em relação aos seus dados de entrada e de saída, sendo, por isso, utilizado para classificar a fusão da informação. Mas, em contraste com o modelo JDL, não fornece uma visão sistêmica, e sim uma maneira refinada de especificar tarefas de fusão de dados por meio dos dados de entrada e saída esperadas (Nakamura, 2007). Isto se dá porque, apesar das categorias propostas por Dasarathy terem como base os três níveis hierárquicos do JDL (dados, característica e decisão), são utilizadas como modos de processamento de entrada e saída (L. de Oliveira, 2005). Em função da importância do modelo JDL e a sua aderência com a proposta deste trabalho, este modelo é melhor detalhado na próxima subseção. 29

31 2.2.2 MODELO JDL Dentre os vários modelos de fusão de dados propostos na literatura, o Joint Directors of Laboratories (JDL) é o modelo mais aceito pela comunidade de pesquisa em Fusão de Dados. O JDL foi proposto na década de 80, pelo Departamento de Defesa dos Estados Unidos (U.S. Department of Defense-DoD) por meio do grupo de trabalho Joint Directors of Laboratories Data Fusion Working Group, que em seguida publicou a primeira versão do modelo (White, 1991). Ao longo dos anos o JDL passou por revisões, que resultaram na incorporação de novas funcionalidades (Steinberg et al., 1999), à medida que sua aplicação não se limitou à área militar, sendo amplamente utilizado nas áreas de Robótica e Medicina. O JDL (FIG. 2-4) é um modelo conceitual que identifica cada processo necessário a um determinado objetivo de fusão, separando em níveis, de acordo com a quantidade de informação agregada aos dados com que o sistema daquele nível trabalha (Júnior, 2010). E cada nível realiza uma tarefa específica no processo da fusão da informação, desde a obtenção dos dados até o resultado do fusionamento. FIG Modelo de fusão de dados JDL, adaptado de Júnior (2010) e Hui (2008). 30

32 No modelo JDL, o processo de fusão de dados consiste de cinco níveis de processamento e um de pré-processamento, além de banco de dados associado a um barramento que interliga todos os componentes, apresentados na FIG. 2-4 e descritos a seguir: As Fontes são responsáveis pelo fornecimento das informações de entrada e podem representar sensores, um conhecimento a priori (informação geográfica, por exemplo), bancos de dados ou entrada de dados via intervenção humana (Nakamura, 2007). O Sistema Gerenciador de Banco de Dados (SGBD) apóia a manutenção dos dados utilizados e fornecidos pelo sistema de fusão da informação (Nakamura, 2007). A Interface Homem-Máquina (IHM) permite a inclusão de informações via humana, por meio de consultas ou comando, bem como a notificação dos resultados do processo de fusão das informações (alarmes, displays, gráficos e sons) (Nakamura, 2007). O Nível 0 ou Pré-processamento de dados de sensores está associado às atividades de pré-detecção, como o processamento de sinais e o registro de tempo (Oliveira, 2009). No Processamento de objetos ou Nível 1, ocorre a fusão de dados, oriundos de diferentes sensores com o objetivo de determinar a posição, velocidade, aceleração e rumo do alvo, visando o alinhamento dos dados e a correlação de objetos (Júnior, 2010). De acordo com Oliveira (2009), no Nível 1, o interesse reside na estimativa e predição da localização do contato, do seu comportamento e da sua identidade. E, devido à complexidade desta tarefa, segundo Júnior (2010), a grande maioria dos sistemas de fusão de alvos desenvolvidos ou em desenvolvimento no mundo estão posicionados no nível 1 do modelo JDL. É importante ressaltar neste nível a busca por maior qualidade no alinhamento dos dados, por meio de ferramentas de inferência baseadas em um Modelo de Dados, conforme mostrado no Capítulo 3, Seção 3.3. O Nível 2, Análise de contexto, utiliza as informações produzidas pelo nível anterior, visando a agregação de objetos, analisar a correspondência entre eventos e atividades para deduzir um comportamento futuro e a integração das 31

33 informações disponíveis sobre condições climáticas e/ou geográficas para produzir o exame da situação (Nakamura, 2007). O Nível 3 ou Análise de impacto efetua o delineamento de um conjunto de possíveis ações potenciais e os efeitos na situação corrente (Oliveira, 2009), além das ações recomendáveis ao operador do sistema (Júnior, 2010). O Refinamento do processo é feito no Nível 4, que monitora o processo de fusão e implementa processos de otimização e controle dos algoritmos dos demais níveis (Júnior, 2010). É um elemento do gerenciamento do processo utilizado para decidir sobre as ações subsequentes visando a alcançar o objetivo da missão (Oliveira, 2009). O Nível 5, inexistente no modelo original, trata do Refinamento cognitivo. Foi acrescentado em 2001, após pesquisadores (Hall et al., 2000) indicarem a necessidade de se introduzir um nível final de tratamento (pós-tratamento da informação), antes de apresentar a informação por meio da Interface Homem- Máquina (IHM), da mesma forma que existe o nível 0 de pré-tratamento. Este nível introduz a avaliação de especialistas ou operadores do sistema, visando orientar a interpretação do contexto e a produção de conclusões para o processo de tomada de decisão (Júnior, 2010). A arquitetura proposta neste trabalho, detalhada no Capítulo 4, se concentra na resolução do problema de fusão de dados até o atendimento parcial do nível 2 do JDL, também denominado Análise de Contexto, visando identificar os objetos do mundo real e, consequentemente, fusionando as informações relativas a estes objetos, considerando diversos critérios e permitindo atingir a consciência situacional ou exame da situação. O atendimento parcial ocorre na medida em que, apesar de fornecer subsídios seguros para a tomada de decisão, não prevê a indicação de comportamentos futuros. A solução proposta também contempla o armazenamento das instâncias de dados processados (arquivos XML 8 ), baseando-se no modelo JC3IEDM. São apresentadas todas as métricas utilizadas na fusão de dados, bem como o relacionamento entre os dados fusionados. Este fato possibilita a execução do nível 5, ao disponibilizar os dados similares e os descartados no console da ferramenta. Portanto, o decisor tem os subsídios necessários para aceitar ou 8 XML - EXtensible Markup Language 32

34 rejeitar o fusionamento realizado pela ferramenta (armazenado no arquivo resultante). 2.3 RELACIONAMENTO DE DADOS E DEDUPLICAÇÃO Segundo Pinheiro (2010) e Christen (2012), o processo de identificação de registros (dados) que representam a mesma entidade ou objeto no mundo real possui denominações distintas na literatura, tais como: relacionamento de dados (record linkage) (CHRISTEN & CHURCHES, 2005, CHRISTEN et al., 2004, FELLEGI & SUNTER, 1969), semelhança de objetos (object isomerism) (CHEN et al., 1996), integração de dados (data integration) (Cohen, 1998) e integração de informação (information integration) (Aizawa & Oyama, 2005). Neste trabalho, quando a busca por pares que se correspondam ocorrer a partir de várias fontes de dados, o processo será denominado de relacionamento de dados (Christen, 2012). Contudo, se houver somente uma fonte de dados envolvida, o processo será nomeado deduplicação (Christen, 2012). Bianco (2012) reporta em seu trabalho que o relacionamento de dados e a deduplicação têm recebido uma atenção especial da comunidade científica por serem um grande desafio para a integração de dados. Afinal, com o crescimento no volume de dados disponíveis, a complexidade do processo de correspondência aumentou significativamente, e, adotando-se uma abordagem simplista, onde todos os registros são comparados com os demais (produto cartesiano), existe um número elevado de comparações para serem analisadas (Bianco, 2012; Christen, 2012). Sendo a escalabilidade e o desempenho propriedades importantes a serem tratadas para atender às exigências impostas pelo crescimento no volume de dados, várias técnicas de indexação vêm sendo desenvolvidas nos últimos anos, visando à redução do número de pares de registros a serem comparados no processo de correspondência (Bianco, 2012; Christen, 2012). E, conforme Christen (2012), isto é possível a partir da remoção daqueles pares cuja não correspondência é óbvia, o que também mantém o alto nível de qualidade na 33

35 correspondência dos pares, e, ao mesmo tempo, pode reduzir a complexidade dos algoritmos devido ao número elevado de comparações PROCESSO DE RELACIONAMENTO DE DADOS Para melhor entendimento do relacionamento de dados, Christen (2012) descreve os passos gerais envolvidos no processo de correspondência de pares entre duas bases de dados, conforme mostrado em FIG FIG. 2-5 Processo de Relacionamento de Dados (Christen, 2012) O processo apresentado na FIG. 2-5 é dividido em quatro fases, onde a fase 1 é relacionada à limpeza e padronização dos dados brutos, objetivando melhorar as características gerais dos dados para otimizar as etapas posteriores. Depende da qualidade do dado obtido. Após o tratamento feito na fase 1, os dados precisam ser indexados, objetivando agregar registros que apresentam semelhança. Isto ocorre na fase 2, que se preocupa com a geração de pares de registros candidatos que são comparados em detalhe no passo seguinte. A comparação, realizada na fase 3, é uma etapa de maior custo computacional e utiliza funções de similaridade adequadas aos diferentes 34

36 conteúdos dos atributos do registro e, como normalmente diversos campos são comparados por par de registros, obtém-se um vetor que contém os valores de similaridade calculados para um determinado par. Os pares eliminados na fase de indexação (por não correspondência óbvia) são classificados diretamente como não correspondente, sem serem comparados explicitamente. Para os demais pares de registros candidatos e, a partir dos valores de similaridade, classificam-se os pares em correspondente, não correspondente ou possível correspondência, sendo que, para esta última categoria faz-se necessária uma revisão manual visando ao redirecionamento para as demais categorias. E, finalmente, a última fase trata de medidas e avaliação da qualidade do processo de relacionamento de dados. Em comparação ao modelo JDL, é possível alinhar as fases apresentadas no processo de relacionamento de dados com os níveis daquele modelo, conforme apresentado na TAB As diferentes fases do Processo de Relacionamento de Dados são apresentadas em detalhes nas próximas seções. TAB. 2-2 Tabela Comparativa entre JDL e Relacionamento de Dados Modelo JDL Relacionamento de Dados Pré-processamento (nível 0) Limpeza e Padronização (fase 1) Processamento de Objetos (nível 1) Indexação (fase 2) Análise de Contexto (nível 2) Classificação (fase 3) Avaliação (fase 4) Refinamento Cognitivo (nível 5) Revisão Manual (fase 3) LIMPEZA E PADRONIZAÇÃO ETL, do inglês Extract, Transform, Load (Extração, Transformação e Carga), é um instrumento para a construção e integração de dados, normalmente realizados em um Data Warehouse, podendo ser comparada ao pré- 35

37 processamento do JDL, e a fase de Limpeza e Padronização do Processo de Relacionamento de Dados (ver TAB. 2-2). As etapas ETL compreendem as tarefas de limpeza dos dados brutos e padronização de formato, visando o tratamento dos dados de forma a atender às outras etapas do processo, com destaque a: Tokenização: que objetiva reduzir o dado (texto) para termos; Filtragem: que tem por finalidade remover marcações e símbolos especiais, tendo como resultado um texto puro, além de remover os acentos do texto; Normalização: cujo objetivo é a padronização do texto (maiúsculo ou minúsculo), ou termos (U S A ou USA, por exemplo); Tratamento de Stopwords: que visa à eliminação de palavras muito frequentes e sem relevância semântica, como artigos, pronomes, preposições, numerais, conjunções e advérbios. Este tratamento é feito com base no idioma de origem do dado (texto) e neste trabalho foi considerado o idioma Português; Lematização: que realiza a redução de inflexões ou formas variantes para a mesma forma base, ou seja, os verbos conjugados seriam reduzidos ao infinitivo e os adjetivos e substantivos, sempre em sua forma masculina singular. Assim, as formas meninos, meninas, menino ou menina seriam equivalentes a menino e a frase the boy s cars are different colors corresponderia a the boy car be different color; e Stemming ou Truncagem: que objetiva reduzir o termo a sua raiz, obtendo o radical e eliminando os afixos (prefixo e sufixo), sendo muito dependente da Língua. Como exemplo, os termos construção e construiremos seriam reduzidos a constru. Estas etapas são importantes para relacionar dados de fontes distintas, uma vez que elimina o ruído dos dados, padronizando formatos e, consequentemente, facilitando comparações entre textos. 36

38 2.3.3 TÉCNICAS DE INDEXAÇÃO E CLASSIFICAÇÃO Os campos de registro ou combinação destes que são utilizados no bloqueio dos pares são denominados de valores da chave de bloqueio ou blocking key values (BKVs). A escolha dos BKVs é um fator importante na determinação da técnica de indexação utilizada no processo de relacionamento de dados. Afinal, é desejável que o maior número de pares verdadeiros possíveis estejam contidos no conjunto de pares de registros candidatos (Christen, 2012). Dentre as técnicas de indexação, a técnica de bloqueio tradicional (Tradicional Blocking) (Christen, 2012) é utilizada desde a década de 1960 e consiste em inserir no mesmo bloco os registros que apresentam o mesmo valor de BKV. E, apenas os registros dentro de cada bloco são comparados entre si. Contudo, essa técnica apresenta como grande desvantagem o fato de ser suscetível à ocorrência de erros e variações nos campos dos registros utilizados para gerar os BKVs, acarretando a alocação de pares de registros em blocos errados. Para solucionar essa deficiência, várias outras técnicas foram propostas, tais como: Indexação por Vizinhança Ordenada (Sorted Neighborhood Indexing), Indexação baseada em Q-Gram (Q-Gram-Based Indexing), Indexação baseada em Vetor de Sufixos (Suffix Array-Based Indexing) e Indexação baseada em Mapeamento de Strings (String-Map-Based Indexing), destacando-se a técnica Canopy Clustering (Christen, 2012; Bianco, 2014 apud Mccallum, Nigam, & Ungar, 2000), que oferece a vantagem de ser independente da ordem em que os termos aparecem nos BKVs (Christen, 2012). A técnica Canopy Clustering (Bianco, 2014; Christen, 2012) é baseada no uso de uma abordagem de agrupamento computacionalmente barato para a criação de clusters sobrepostos, a partir dos quais os blocos de pares de registros candidatos podem ser gerados. Nesta técnica, por exemplo, os clusters são criados por meio do cálculo das semelhanças entre BKVs, usando coeficientes de similaridade de Jaccard, TF-IDF ou outras funções computacionalmente baratas. Neste trabalho, utiliza-se uma matriz esparsa para a seleção inicial de quais registros serão comparados, conforme detalhado no Capítulo 4. 37

39 Nesta técnica, podem ser utilizadas duas estratégias para encontrar os clusters sobrepostos, quais sejam: em Vizinhos mais Próximos ou Baseada em Limites (Christen, 2012). Devido à forma intuitiva como o usuário pode definir os pontos de corte na técnica Baseada em Limites, considerando-os como erros aceitáveis para as diversas funções de similaridade envolvidas, este trabalho optou por utilizar esta técnica para encontrar os clusters sobrepostos. Isto pode ser facilmente realizado pelo usuário através da ferramenta desenvolvida, conforme detalhado no Capítulo 3, Seção 3.2 e ao longo da descrição dos experimentos (Capítulo 5). A técnica Baseada em Limites está alinhada com a regra de limites reportada por Mehrotra (2003). Por exemplo, dados três atributos, A, B e C e supondo a utilização da distância como medida para o atributo A, distância como medida para o atributo B e distância como medida para o atributo C, tem-se a seguinte regra: (2.1) Onde o problema de relacionamento de dados é encontrar os pares de modo que cada par satisfaça a regra definida anteriormente. Quando diferentes critérios são utilizados para classificar pares de registros similares, pode ser usado o somatório de várias funções de similaridades, como descrito em Carvalho & da Silva (2003): ( ) ( ) (2.2) E, como cada função de similaridade representa um aspecto do objeto, é de fundamental importância a escolha dos critérios que serão representados pelas funções de similaridade, o que é discutido no Capítulo 4. 38

40 2.4 CONSIDERAÇÕES FINAIS Este capítulo apresentou os principais modelos de fusão de dados, com destaque ao Modelo Joint Directors of Laboratories. E também descreveu o processo da técnica de relacionamento de dados. Em seguida, as fases do JDL foram comparadas às fases do processo de relacionamento de dados, para depois serem descritas sucintamente. Esta comparação permitiu inferir que estas estratégias são próximas e algumas vezes complementares, sendo possível mapear o seu relacionamento. No próximo capítulo são apresentadas as tecnologias utilizadas para implementar as diversas fases descritas neste capítulo, bem como o Modelo de Dados utilizado neste trabalho (JC3IEDM) e a solução adotada para modelar a qualidade no processo da fusão de dados. 39

41 3 TECNOLOGIAS UTILIZADAS Visando atender a determinadas fases apresentadas no modelo JDL e no relacionamento de dados, apresentadas no Capítulo 2, foram consideradas algumas ferramentas e estratégias, cujo detalhamento é apresentado a seguir. 3.1 MODELO DE DADOS O SIPLOM atende ao Multilateral Interoperability Programme (MIP) da Organização do Tratado do Atlântico Norte (OTAN), que objetiva alcançar a interoperabilidade internacional entre os Sistemas de Comando e Controle, nos diversos níveis (tático, operacional, estratégico), visando apoiar operações interaliadas, combinadas e conjuntas (MIP, 2012). Para que isso seja possível, o modelo precisa apresentar algumas características (MIP, 2012), dentre as quais destaca-se: a) Apresentar uma estrutura genérica o suficiente para acomodar diversos ambientes: aéreo, terrestre, marítimo e ambientes de operações conjuntas; e b) Disponibilizar medidas para a identificação das fontes de informação, com uma indicação da validade dos dados. O MIP produz um conjunto de especificações que, ao serem implementadas pelos países, permitem alcançar a capacidade de interoperabilidade necessários para a troca de informações entre seus diferentes sistemas de Comando e Controle. O elemento central da solução MIP é o Joint Consultation, Command and Control Information Exchange Data Model (JC3IEDM), Modelo de Dados adotado para troca de informações, que objetiva especificar um conjunto mínimo de dados a serem trocados nas diversas operações (MIP, 2012). Contudo, cada país, agência ou comunidade de interesse tem permissão para expandir o seu próprio dicionário de dados, visando incorporar seus requisitos adicionais de troca de informações, cuja validade será restrita ao seu país, agência ou comunidade. 40

42 Apesar disso, MIP (2012) reporta que, qualquer expansão do modelo, se considerada de interesse geral, pode ser submetida para avaliação como uma proposta de mudança para inclusão em futuras versões da especificação. A estrutura de informação do JC3IEDM é composta por três modelos chamados conceitual, lógico e físico. O primeiro representa o alto nível da informação em conceitos generalizados como Ações, Organizações, Material, etc. O segundo representa toda informação em um escopo e se baseia na quebra dos conceitos de alto nível em informações específicas. E o terceiro provê especificações detalhadas para mecanismo de troca de informações (MIP, 2012). Sobre o modelo conceitual, esse é estruturado em dezenove conceitos (também chamados de entidades) independentes, cada uma com regras gerais dentro do modelo (FIG. 3-1). FIG. 3-1 Entidades Independentes do JC3IEDM 41

43 Entretanto, cada uma das entidades independentes desse modelo possui inúmeras entidades dependentes e atributos, totalizando aproximadamente 647 tabelas no padrão JC3IEDM, tornando este modelo muito complexo (PERES, 2010). Visando a simplificação e objetividade deste trabalho, são utilizadas as entidades independentes: OBJECT-TYPE, OBJECT-ITEM, LOCATION e REPORTING-DATA. Destaca-se esta última por tratar da especificação da fonte, qualidade e tempo aplicados aos dados relatados (MIP,2012), O relacionamento entre as entidades selecionadas é mostrado na FIG FIG. 3-2 Relacionamento entre as Entidades Utilizadas A entidade OBJECT-TYPE visa identificar classes de coisas. Neste trabalho as informações desta entidade permitem contextualizar o objeto, por meio da obtenção de informações sobre o seu tipo e ambiente, cujos valores são comparados por meio de uma matriz (matriz esparsa de contexto), utilizada para a seleção inicial dos registros a serem comparados. A figura FIG. 3-3 detalha os atributos dessa entidade, onde object-type-id representa o identificador do tipo do objeto, object-type-name-txt indica a descrição do tipo do objeto e o atributo object-type-decoy/dummy-indicator-code, foi eleito para conter o ambiente do objeto, que juntos definem o contexto do objeto. 42

44 FIG. 3-3 Atributos da entidade OBJECT-TYPE Por meio da entidade OBJECT-ITEM é possível identificar individualmente os objetos das classes indicadas em OBJECT-TYPE. Neste trabalho a descrição do objeto é obtida por meio da entidade OBJECT-ITEM, cujos atributos estão detalhados na FIG. 3-4, com destaque para o atributo objectitem-name-text que contém a descrição do objeto (instância). FIG Atributos da entidade OBJECT-ITEM As informações sobre a localização do objeto (latitude e longitude de avistamento do objeto, bem como sua velocidade) são obtidas por meio da entidade LOCATION (entidade GEOGRAPHIC-POINT e relacionamento OBJECT-ITEM-LOCATION), que especifica, além do posicionamento, a dimensionalidade do objeto, indicando formas tais como: ponto, linha, superfície e respectivos atributos. FIG. 3-5 e FIG. 3-6 apresentam os atributos relacionados à localização do objeto (object-item-location-speed-rate,que contém a velocidade e os atributos geographic-point-latitute-coordinate e geographic-point-longitude-coordinate, que correspondem à latitude e longitude, respectivamente). 43

45 FIG Atributo referente à velocidade do objeto FIG. 3-6 Atributos referentes a latitude e longitude do objeto 44

46 A entidade REPORTING-DATA indica os atributos de interesse para especificação da qualidade da fonte e dos dados recebidos. São eles: reportingdata-accuracy-code (precisão), reporting-data-credibility-code (credibilidade) e reporting-data-reliability-code (confiança). Os atributos dessa entidade são mostrados na FIG. 3-7, cuja modelagem é detalhada na seção a seguir. FIG Atributos da entidade REPORTING-DATA Em relação ao momento de avistamento do objeto (data e hora), a entidade REPORTING-DATA permite duas categorias (reporting-data-timing-categorycode na FIG. 3-7): fixa (absoluta) no que diz respeito ao calendário padrão e relativa em relação a uma origem arbitrária que pode não ser especificada (por exemplo, D+3). Neste trabalho foi utilizada a primeira categoria, por meio da entidade REPORTING-DATA-ABSOLUTE-TIMING, que especifica data e hora do avistamento do objeto cuja data segue o calendário gregoriano e o tempo de relógio de 24 horas é definida com relação ao Tempo Universal (FIG. 3-8). 45

47 FIG. 3-8 Entidade REPORTING-DATA-ABSOLUTE-TIMING O Programa de Interoperabilidade Multilateral utiliza um modelo de dados semiestruturados, conforme um Schema XML (Gerz, Loaiza, & Chaum, 2006) para troca de informações, a ser utilizado por todos os envolvidos. Sendo assim, o SIPLOM recebe as informações das diversas organizações envolvidas no formato XML, seguindo o esquema disponível no JC3IEDM. 3.2 CRITÉRIOS DE QUALIDADE E REDES BAYESIANAS Na fase de processamento de objetos do JDL (ou Indexação do relacionamento de dados) foi necessário aplicar ferramentas de inferência ao Modelo de Dados JC3IEDM, visando alcançar maior qualidade no alinhamento dos dados, conforme já foi dito no Capítulo 2. Considerando-se que a determinação da melhor técnica ou algoritmo de inferência deve ser baseada essencialmente no tipo de problema a ser resolvido, foi necessário avaliar e selecionar os critérios de qualidade adequados para a solução do problema. 46

48 Como o processo de fusão visa o enriquecimento dos dados oriundos das diversas fontes, inicialmente, foi necessário verificar qual fonte de dados apresenta maior grau de confiabilidade e completeza, ou seja, a incorporação da confiabilidade das fontes no processo de fusionamento. Assim, o estudo de Llinas et al. (2004), que afirma ser possível atribuir um grau numérico de confiabilidade para cada fonte de dados, e ainda, a pesquisa de Barros (2009) apud BATINI & BARONE et al. (2007), que reporta que os valores das dimensões de qualidade, podem ser associados a fonte de dados como um todo, conduziram a pesquisa dos critérios de qualidade para aqueles critérios capazes de contribuir na inferência da qualidade da fonte e consequentemente, na qualidade da informação. Assim, a partir do modelo de dados JC3IEDM foram utilizados os atributos accuracy-code (precisão), credibility-code (credibilidade) e reliability-code (confiança) da entidade REPORTING-DATA como critérios de interesse para definição da qualidade da informação, sendo que os dois primeiros referem-se aos dados transmitidos e o último à confiança da fonte. A seleção dos atributos mencionados anteriormente baseia-se na documentação do JC3IEDM (MIP, 2012), que recomenda esses atributos para o uso apropriado dos dados. Além dos estudos de Barros (2009), onde os mesmos critérios precisão (grau no qual o valor do dado corresponde a um valor aproximado em relação ao valor real), credibilidade (determina se os dados e as suas fontes são aceitos como corretos) e confiabilidade (o grau de confiança que usuários têm nos dados e suas fontes) são elencados como dimensões de qualidade. Assim, com base na definição dos critérios de qualidade, restou definir a técnica ou algoritmo de inferência mais adequada para obter o grau de confiabilidade da fonte. Técnicas, algoritmos e métodos utilizados no fusionamento de dados podem ser classificados com base em critérios distintos, tais como o nível de abstração de dados, a finalidade, os parâmetros e tipo de dados envolvidos. E, de acordo com a finalidade, os métodos de fusão de dados mais comuns são agregação, inferência e estimação, onde, os mais simples são os métodos de agregação por produzirem redução do volume de dados, utilizando operações como média, 47

49 máximo, e mínimo. Os métodos de estimação objetivam estimar o estado de um processo a partir de medições de sensores, cujos exemplos são: quadrados mínimos, filtros de média móvel, filtros de Kalman e filtros de partículas (Coutto Filho et al., 2007; Nakamura, 2007). Como o objetivo deste trabalho é a fusão de dados visando alcançar a consciência situacional e não apenas o fusionamento de dados de sensores, os métodos de inferência ou dedução foram selecionados como os métodos de fusão de dados mais adequados para este trabalho, pois objetivam processar dados e apresentar conclusões a respeito dos mesmos. A Inferência Bayesiana, Dempster-Shafer, Lógica Fuzzy, Redes Neurais e Semântica são exemplos desse método (Coutto Filho et al., 2007; Nakamura, 2007). Uma Rede Bayesiana é um grafo acíclico e dirigido onde: cada nó da rede representa uma variável aleatória; os pares de nós se conectam por meio de um conjunto de ligações ou arcos dirigidos; cada nó recebe arcos dos nós que tem influência direta sobre ele (nós pais) e cada nó possui uma tabela de probabilidade condicional associada, que quantifica os efeitos que os pais têm sobre ele (Russel, 1995). Em uma rede bayesiana está representada a distribuição de probabilidade conjunta entre todas as variáveis: P(y 1^...^y n ), por exemplo, P(Tempestade,, Fogo na Floresta)? E, para calcular a probabilidade conjunta, deve-se considerar: n P( y1,, yn) P( yi / Predecessores ( Yi )) (3.1) i 1 onde Predecessores(Yi) significa predecessores imediatos de Yi no grafo, pois uma rede bayesiana é uma representação correta do domínio somente se, uma vez dados seus pais, cada nó é condicionalmente independente de seus predecessores na ordenação de nós. Avaliando-se os critérios do REPORTING_DATA, observou-se que os mesmos apresentam valores de domínio especificados de forma gradativa no Modelo JC3IEDM, apresentando um alinhamento ao Modelo de Redes Bayesianas, adotado como solução para a inferência de dados. 48

50 Para a construção da rede bayesiana, foi utilizada a IDE (Integrated Development Environment) Eclipse versão Juno, e a API (Application Programming Interface) Netica-J versão 5.04 para a plataforma Java, cuja biblioteca, a Java Native Interface (JNI), permite a utilização dos recursos da Application Programming Interface (API) Netica para trabalhar com Redes Bayesianas. 3.3 FERRAMENTA ETL Para a realização do pré-processamento (nível 0 do JDL ou fase 1 do relacionamento de dados), foi considerado o uso de uma ferramenta ETL integrada a um framework para processamento de texto, cuja apresentação da solução implementada está disponível no Capítulo 4. A ferramenta selecionada para interface e apresentação dos dados foi o Apatar, por ser uma ferramenta de integração de dados multi-plataforma que fornece conectividade a uma variedade de bancos de dados, aplicações, protocolos e arquivos, entre eles o formato XML, utilizado neste trabalho. Além de ser um projeto de código aberto em Java, apresentando uma interface intuitiva, que permite a inclusão de funcionalidades por meio de criação de conectores. Para processamento de texto, utilizou-se o Framework Lucene, software de código aberto também desenvolvido em Java. Permite realizar toda a fase de pré-processamento do processo de integração de dados (formato texto) e oferece recurso de consultas (query) nos documentos tratados, além de trabalhar com o conceito de indexação de documentos e tratamento de atributos. A integração entre estas duas ferramentas se deu por meio do desenvolvimento de um componente do Apatar (Componente XML Etl), que incorporou algumas das funcionalidades do Lucene, como descrito no Capítulo 4. 49

51 3.4 CONSIDERAÇÕES FINAIS Este capítulo apresentou o Modelo de Dados JC3IEDM, utilizado ao longo deste trabalho, além de importantes técnicas que possibilitaram a aplicação dos conceitos apresentados no Capítulo 2, com destaque para as redes bayesianas, que, juntamente com os critérios de qualidade do REPORTING-DATA possibilitaram a modelagem da qualidade da fonte da informação. Considerando as entidades e relacionamentos apresentados na Seção 3.1, é importante destacar a correlação entre o modelo JC3IEDM e a estrela de critérios adotada para este trabalho, cuja aplicação no alinhamento semânticoestrutural é detalhada no Capítulo 4, Seção A entidade OBJECT-ITEM corresponde ao critério WHAT (descrição) na estrela de critérios, indicando a descrição textual do objeto. O critério WHERE da estrela de critérios é obtido a partir da entidade LOCATION (entidade GEOGRAPHIC-POINT e relacionamento OBJECT-ITEM- LOCATION), que disponibiliza informações, que, combinadas, definem a localização do objeto (latitude/longitude e velocidade). A entidade REPORTING-DATA-ABSOLUTE-TIMING indica a data/hora do objeto, sendo correlacionada ao critério WHEN da estrela de critérios. Na estrela de critérios adotada para este trabalho, a entidade OBJECT- TYPE corresponde ao critério HOW (contexto), que é a combinação dos atributos tipo (aeronave, navio, veículo leve, veículo pesado, pessoa ou tropa) e ambiente em que o objeto se desloca (ar, água, terra, estrada). Outra correlação proposta entre o modelo JC3IEDM e a estrela de critérios é o da entidade REPORTING-DATA, que fornece os atributos (precisão, credibilidade e confiança) utilizados no alinhamento das qualidades para calcular a qualidade da informação, atendendo ao critério WHO (caracterização da fonte) na estrela de critérios. 50

52 4 SOLUÇÃO PROPOSTA Este capítulo apresenta a arquitetura proposta para o fusionamento em um ambiente de C2 (SIPLOM), utilizando o Modelo JC3IEDM e a técnica de relacionamento de dados. Os componentes da arquitetura são descritos em alto nível na Seção 4.1, Arquitetura Conceitual e o detalhamento de como cada componente foi implementado para alcançar o resultado desejado é descrito na Seção 4.2, Arquitetura de Implementação. 4.1 ARQUITETURA CONCEITUAL VISÃO GERAL FIG. 4-1 Arquitetura / visão geral A arquitetura mostrada na FIG. 4-1 objetiva, a partir de dados no formato XML, identificar os objetos do mundo real e, com base nesta identificação, delimitar o conjunto de informações que são referentes ao mesmo objeto e fusioná-las, acrescentando qualidade e confiança à informação final exposta ao Comando. E assim, contribuir para a obtenção da consciência situacional, melhoria da tomada de decisão e minimização da sobrecarga de dados. Para isto, serão utilizadas estratégias voltadas para a Fusão de Dados das diversas fontes envolvidas, além do Modelo de Dados JC3IEDM e a técnica de relacionamento de dados (record linkage). 51

53 Neste trabalho, foi definido o conceito de alinhamento para todo o processo de descoberta das características comuns entre os nós XML de entrada. A partir desse conceito, foram identificados três alinhamentos, a saber: alinhamento sintático, alinhamento das qualidades e, por último, alinhamento semântico- estrutural, que correspondem aos componentes XML Etl, XML CFT e XML SMT da ferramenta desenvolvida e cujo detalhamento está descrito na Seção 4.2. O alinhamento sintático objetiva a preparação do texto, importante quando o texto é oriundo de diferentes fontes de dados. Equivale ao nível 0 do JDL (préprocessamento) ou fase 1 (Limpeza e Padronização) do Processo de Relacionamento de Dados. O alinhamento das qualidades concentra-se na qualidade da fonte de dados, a partir da modelagem dos critérios da entidade REPORTING-DATA em uma rede bayesiana. O alinhamento das qualidades está correlacionado ao nível 1 do JDL (processamento de objetos) ou fase 2 do Relacionamento de Dados (Indexação). O alinhamento semântico-estrutural preocupa-se em selecionar as informações de maior similaridade (envolvendo critérios diversos), a partir das fontes mais confiáveis, a fim de identificar os objetos do mundo real. E, em seguida, fusionar as informações selecionadas (arquivo XMLFusion.xml). Corresponde aos níveis 1 e 2 (parcialmente) do JDL ou as fases de indexação e classificação do Relacionamento de Dados. A arquitetura proposta em FIG. 4-1, por tratar de fusionamento de dados, foi inspirada no modelo JDL, que é o mais aceito na área de fusão de dados, atendendo parcialmente até o nível 2 desse modelo. Os dados modelados em XML são os equivalentes às fases 2 e 3 do modelo de Dasarathy, considerandose, assim, a fusão de dados de mais alto-nível. 52

54 A TAB. 4-1 apresenta a correspondência da arquitetura proposta neste trabalho com os modelos JDL e a técnica Relacionamento de Dados: TAB Tabela Comparativa entre JDL, Relacionamento de Dados e Modelo JDL Pré-processamento (nível 0) Processamento de Objetos (nível 1) Análise de Contexto (nível 2) Refinamento Cognitivo (nível 5) a Arquitetura Proposta Relacionamento de Dados Limpeza e Padronização (fase 1) Indexação (fase 2) Classificação (fase 3) Avaliação (fase 4) Revisão Manual (fase 3) Arquitetura Proposta Alinhamento Sintático Alinhamento das Qualidades alinhamento Semântico-Estrutural não se aplica não se aplica Cabe observar que a arquitetura prevê um feedback (realimentação) baseado nas informações resultantes fusionadas (arquivo XMLFusion), visando melhoria nos diversos alinhamentos ALINHAMENTO SINTÁTICO Conforme FIG. 4-2, observa-se que o alinhamento sintático trata da preparação de textos oriundo de diferentes fontes de dados que serão comparados no processo de fusão de dados, preocupando-se com suas características linguísticas e a morfologia 9, definindo-se os termos que serão comparados. É o módulo responsável pela limpeza e, por analogia, pode ser associado às ferramentas ETL (Extract, Transform and Load) de um Data Warehouse. 9 Em linguística, Morfologia é o estudo da estrutura, da formação e da classificação das palavras. A peculiaridade da morfologia é estudar as palavras olhando para elas isoladamente e não dentro da sua participação na frase ou período. A morfologia está agrupada em dez classes, denominadas classes de palavras ou classes gramaticais. São elas: Substantivo, Artigo, Adjetivo, Numeral, Pronome, Verbo, Advérbio, Preposição, Conjunção e Interjeição. Fonte: 53

55 FIG. 4-2 Arquitetura / alinhamento sintático Dentre as tarefas deste processo, podemos citar: tokenização, filtragem, normalização, eliminação de stopwords, lematização e stemming ou truncagem, cujo detalhamento foi apresentado no Capítulo 2, Subseção Vale ressaltar a necessidade de disponibilizar os termos sinônimos para utilização na tarefa de lematização. Como o pré-processamento é uma etapa determinante no processo de mineração de dados, é necessário dispensar uma atenção maior aos dados para que estes sejam tratados de forma a atender às outras etapas do processo. Na visão do processo de alinhamento sintático, representada pela FIG. 4-3, observa-se as seguintes etapas para execução das tarefas na solução proposta: O usuário seleciona o arquivo XML a ser tratado; O usuário seleciona as tarefas que serão realizadas no tratamento do arquivo XML; O sistema realiza as tarefas selecionadas pelo usuário; e O sistema grava o arquivo XML com os dados tratados. 54

56 FIG. 4-3 Visão de processo (alinhamento sintático) A implementação do alinhamento sintático está detalhada na Subseção 4.2.1, que corresponde ao componente XML Etl da ferramenta ALINHAMENTO DAS QUALIDADES FIG. 4-4 Arquitetura / alinhamento das qualidades O alinhamento das qualidades, FIG. 4-4, atende à premissa de melhoria da qualidade da informação e é responsável pela modelagem dos critérios accuracy-code (precisão), credibility-code (credibilidade) e reliability-code (confiança) da entidade REPORTING-DATA, do modelo JC3IEDM, em uma rede bayesiana. 55

57 Ampliando a discussão iniciada no Capítulo 3, Seção 3.2, é necessário detalhar um pouco mais sobre a construção da solução adotada. Após a seleção dos critérios de qualidade, foi necessário formular uma Matriz de Cálculo de Qualidades, utilizando-se os valores de domínio de cada um dos componentes (precisão, credibilidade e confiança). A gradação dos valores de domínio de cada critério foi estabelecida de acordo com a definição do modelo de dados em (MIP, 2012), cuja correspondência entre a classificação e o valor do campo no arquivo XML é apresentada em TAB. 4-2, TAB. 4-3 e TAB. 4-4: TAB. 4-2 Critério precisão Accuracy (Precisão Dado) Domínio Valor XML Confirmed Confirmado 1 Probable Provável 2 Possible Possível 3 Doubtful Duvidoso 4 Improbable Improvável 5 Truth cannot be judged Indeterminado 6 TAB. 4-3 Critério credibilidade Credibility (Credibilidade Dado) Domínio Valor XML Reported as a fact Fato RPTFCT Reported as plausible Plausível RPTPLA Reported as uncertain Incerto RPTUNC Indeterminate Indeterminado IND TAB. 4-4 Critério confiança Reliability (Confiança Fonte) Domínio Valor XML Completely reliable Completamente Confiável A Usually reliable Altamente Confiável B Fairly reliable Muito Confiável C Not Usually reliable Pouco Confiável D Unreliable Não Confiável E Reliable cannot be Indeterminado F judged 56

58 E, a partir dos critérios definidos anteriormente foi construída uma rede bayesiana, mostrada na FIG. 4-5 FIG. 4-5 Rede bayesiana para mensurar a qualidade da informação Para compor a qualidade do dado (Alta / Baixa) na Matriz de Cálculo de Qualidades e configurar a rede bayesiana (FIG. 4-5), os critérios precisão, confiança e credibilidade foram classificados em estados que variam de Muito Alta a Muito Baixa. Inicialmente, foi considerada que a probabilidade de cada um dos estados seria a mesma para cada um dos critérios, conforme apresentado na FIG A estratégia proposta neste trabalho também estipula que os critérios podem estar associados a pesos diferentes. Assim, tanto as probabilidades dos estados, quanto os pesos podem ser ajustados dependendo dos cenários considerados e da análise dos resultados obtidos (feedback na FIG. 4-5). 57

59 Nas tabelas TAB. 4-5, TAB. 4-6 e TAB. 4-7 são apresentados os valores para cálculo da qualidade, com base nos estados dos critérios: TAB. 4-5 Classificação e valores atribuídos para os estados do critério precisão Precisão Classificação Valor para cálculo da qualidade do dado Confirmado Muito Alta 100 Provável Alta 80 Possível Média 60 Duvidoso Baixa 40 Improvável Muito Baixa 20 Indeterminado Muito Baixa 20 TAB. 4-6 Classificação e valores atribuídos para os estados do critério credibilidade Credibilidade Classificação Valor para cálculo da qualidade do dado Fato Alta 100 Plausível Média 65 Incerto Baixa 30 Indeterminado Baixa 30 TAB. 4-7 Classificação e valores atribuídos para os estados do critério confiança Confiança Classificação Valor para cálculo da qualidade do dado Completamente Muito Alta 100 Confiável Altamente Confiável Alta 80 Muito Confiável Média 60 Pouco Confiável Baixa 40 Não Confiável Muito Baixa 20 Indeterminado Muito Baixa 20 58

60 Assim, após a classificação dos critérios precisão, confiança e credibilidade e a atribuição dos valores para cada estado, utilizou-se na rede bayesiana (FIG. 4-5) a seguinte fórmula para cálculo da qualidade do dado, que permite identificar a probabilidade de qualidade Alta. (4.1) A probabilidade de qualidade Baixa foi calculada da seguinte forma: (4.2) No caso de empate, foi considerada a média ponderada utilizando os pesos pesoconfianca, pesocredibilidade, e pesoprecisao, cujos valores atribuídos foram 3, 2 e 1, respectivamente, onde o valor 3 é considerado como mais relevante e o valor 1 o de menor relevância. E, no caso de persistir o empate, optou-se pela escolha do primeiro dado analisado, que será considerado como verdadeiro já que, neste caso, os dados apresentados possuem a mesma qualidade. A descrição da implementação do alinhamento das qualidades está disponível na Subseção 4.2.2, componente XML Cft da ferramenta ALINHAMENTO SEMÂNTICO-ESTRUTURAL Dentre os diversos atributos que qualificam um objeto, propõe-se um conjunto de atributos mínimos para identificar se duas ou mais informações de fontes distintas se referem ao mesmo objeto em uma operação no mundo real. Os atributos mínimos propostos neste trabalho, já discutidos no Capítulo 3 (Seção 3.2), são classificados de acordo com o plano de ação 5W1H 10 e correlacionados com o modelo JC3IEDM (FIG. 4-6). 10 5W1H representa as iniciais inglesas dos seguintes pronomes interrogativos: What (o quê?); Who (quem?); When (quando?); Where (onde?); Why (por quê?) e How (como?). 59

61 FIG. 4-6 Correlação entre o modelo JC3IEDM e a estrela de critérios São eles: descrição do objeto (WHAT); localização do objeto (WHERE: latitude/longitude e velocidade); quando o objeto foi visto (WHEN: tempo data/hora); união do ambiente utilizado pelo objeto para deslocamento e o tipo de objeto visualizado (HOW: contexto); critérios de qualidade da fonte e informação indicados pela entidade REPORTING-DATA (WHO: precisão, credibilidade e confiança). A correspondência entre a estrela de critérios e os atributos do modelo de dados JC3IEDM foi amplamente discutida ao longo do Capítulo 3, em especial na Seção 3.4. O critério WHY (objetivo ou motivação), apesar de proposto neste trabalho, deverá ser desenvolvido em trabalhos futuros, mas uma possível estratégia seria por meio da entidade ACTION do modelo de dados JC3IEDM; Estes critérios respondem às questões mínimas a serem consideradas de acordo com os requisitos apresentados no SIPLOM, a fim de permitir a identificação de um objeto no mundo real. Contudo, além dos critérios já enumerados anteriormente, contemplou-se a necessidade de selecionar os objetos pela similaridade entre os atributos referentes ao objeto: tipo (aeronave, navio, veículo leve, veículo pesado, pessoa ou tropa) e o ambiente em que o objeto se desloca (ar, água, terra, estrada), denominando essa correlação de critério contexto, representado por meio de uma matriz esparsa. 60

62 A matriz esparsa do critério contexto utilizado nos experimentos deste trabalho, mostrada em TAB. 4-8, apresenta um percentual de 28% de valores significativos. É desejável sua ampliação em trabalhos futuros, possibilitando a inclusão ou alteração de tipos de objetos e/ou ambientes. TAB. 4-8 Matriz esparsa do critério contexto (tipo/ambiente) Esta matriz permite a visualização das diversas similaridades entre grupos (pares de registros correspondentes), considerando-se os contextos aeronaves (vermelho), embarcações (verde), veículos (azul) e pessoas (amarelo). O alinhamento semântico-estrutural realiza os agrupamentos de pares de registros similares, que permitirão a identificação dos objetos do mundo real. Os agrupamentos devem considerar critérios diversos, que correspondem aos atributos mínimos elencados para identificar um objeto do mundo real, obtendo a similaridade final e selecionando as informações que serão fusionadas, com auxílio do valor de qualidade calculado para a fonte. Este alinhamento é apresentado na FIG. 4-7 e detalhado a seguir. 61

63 FIG. 4-7 Arquitetura / alinhamento semântico-estrutural Inicialmente, é utilizada a técnica Canopy Clustering, que, conforme já exposto no Capítulo 2, Subseção 2.3.3, baseia-se em uma abordagem de agrupamento computacionalmente barato para a seleção dos pares de registros correspondentes. Esta técnica se mostra muito vantajosa, visto que a matriz esparsa do critério contexto (TAB. 4-8) apresenta somente 28% de valores significativos e em uma pré-filtragem, a maioria dos pares de registros são eliminados porque claramente não são correspondentes (valor zero). Ou seja, somente os pares de registros que apresentam valor diferente de zero para contexto são selecionados. O resultado obtido com a utilização da técnica Canopy Clustering teoricamente é o mesmo que o sem indexação, com a vantagem de melhoria no desempenho, pois no processo sem a indexação todos os objetos são comparados entre si. Adicionalmente, o contexto melhora a precisão da fusão, pois só admite que objetos do mesmo contexto sejam fusionados, ou seja, determina quando não fundir (valor zero), contemplando uma questão muitas vezes ignorada ou não recebendo a devida importância nos trabalhos de fusão de dados. Saber quando fundir é tão importante quanto determinar quando não fundir (Lee et al., 2010). Em uma segunda etapa, que ocorre somente para os pares de registros selecionados pelo contexto, verifica-se o relacionamento dos pares de registros utilizando os critérios tempo, localização, descrição e o próprio critério contexto para classificar os pares de registros que realmente são similares. 62

64 Para isto, foram definidas funções de similaridade para cada critério envolvido, com a indicação, para cada critério, do valor de erro máximo aceitável (valor de corte, EQ. 2.1) e a contribuição do critério no cálculo da similaridade global (valor do peso), flexibilizando-se o processo de fusão de dados. Vale ressaltar a necessidade de disponibilizar os termos sinônimos para o cálculo da similaridade textual do critério descrição. A arquitetura utilizou a técnica Baseada em Limites para a seleção dos pares similares, visando facilitar e permitir que o usuário/especialista indique, intuitivamente, os pontos de corte das funções de similaridade envolvidas, conforme já foi apresentado no Capítulo 2, Subseção Assim, somente para os pares selecionados, calcula-se as similaridades dos vários critérios, a fim de obter o cálculo da similaridade global, que é o somatório das várias funções de similaridade, obedecendo ao peso indicado para cada critério (EQ. 2.2). Após o cálculo da similaridade global é possível identificar os pares de registros correspondentes e, para cada par, verificar aquele que apresenta melhor qualidade, conforme o valor calculado para a qualidade do dado, realizado no alinhamento das qualidades. Com isso, é descartado o registro que apresentou qualidade inferior, priorizando as informações do registro de maior qualidade. Por fim, o alinhamento semântico-estrutural, após resolução da semântica envolvida, realiza a fusão das estruturas (esquemas) em XML em uma única a ser populada com as informações mais corretas dos objetos. O modelo de dados fusionado baseia-se no esquema preconizado no JC3IEDM, ou seja, o esquema XML é único, o fusionamento ocorrerá no nível das instâncias (XMLFusion.xml). O alinhamento semântico-estrutural corresponde ao componente XML Smt da ferramenta desenvolvida, com maior detalhamento na Subseção

65 4.2 ARQUITETURA DE IMPLEMENTAÇÃO A solução apresentada na FIG. 4-8 foi implementada utilizando a linguagem Java, devido às ferramentas utilizadas (Apatar, Lucene e Nética) serem facilmente integradas através dessa linguagem. FIG. 4-8 Arquitetura de Implementação Para a construção da rede bayesiana necessária para o cálculo da qualidade de informação (Alinhamento das Qualidades), foi utilizada a IDE (Integrated Development Environment) Eclipse versão Juno e a API (Application Programming Interface) NeticaJ versão 5.04 para a plataforma Java (TAB. 4-9). Para cada alinhamento da arquitetura conceitual (sintático, das qualidades e semântico-estrutural) foi desenvolvido um componente específico na ferramenta Apatar (plugin), a fim de representar integralmente o processo, desde o tratamento na entrada dos dados, até a identificação dos objetos semelhantes e fusão das informações em um único arquivo XML. 64

66 Especificação Linguagem de Programação TAB Especificações da Ferramenta Java SE Desktop 6.0 Descrição Ferramenta Apatar Framework Lucene Ferramenta Nética-J 11 Ferramenta para extração de dados (ETL) escrita em Java de código aberto e voltada para o usuário final. A versão utilizada neste trabalho é a versão Framework para pesquisa de texto, escrito em Java de código aberto. Permite realizar toda fase de préprocessamento do processo de mineração de dados e oferece recurso de consultas (query) nos documentos tratados além de trabalhar com o conceito de indexação de documentos e tratamento de atributos. A versão utilizada neste trabalho é a versão 4.3. Netica-J é um conjunto de classes Java, que contém uma biblioteca, a Java Native Interface (JNI), que permitem que um desenvolvedor Java utilize os recursos da Application Programming Interface (API) Netica para trabalhar com redes Bayesianas. A versão utilizada neste trabalho é a versão Para utilização de cada plugin não é necessário realizar build na ferramenta Apatar. Basta copiar as classes compiladas e os arquivos complementares (bibliotecas) para a pasta apatar\plugins\connectors\ da instalação da ferramenta Apatar, sendo que a subpasta bin contém as classes compiladas e a subpasta lib as bibliotecas utilizadas pelo respectivo plugin. Cada plugin tem seu diretório específico, conforme FIG. 4-9: 11 Disponível em https://www.norsys.com/netica.html 65

67 apatar plugins connectors nome_plugin bin lib plugin.xml FIG. 4-9 Estrutura de pastas dos plugins XML Etl, XML Cft e XML Smt O arquivo plugin.xml define as características daquele plugin, sendo responsável por determinar o seu nome e definir os diretórios das classes e das bibliotecas que serão utilizadas pelo componente, de acordo com a estrutura de pastas descrita na FIG Na tela inicial do Apatar é possível abrir um projeto salvo ou criar um novo projeto, conforme a FIG. 4-10: FIG Tela inicial do Apatar 66

68 Ao selecionar a opção Create new DataMap, como mostrado na FIG. 4-11, é possível visualizar os plugins disponíveis na aba Connectors da ferramenta. E para a definição de um projeto, basta arrastar cada plugin selecionado para a área de trabalho do aplicativo e realizar as conexões necessárias entre eles, salvando posteriormente o projeto definido. FIG Exibição dos plugins no Apatar E ao dar clique duplo em cada plugin do projeto, a respectiva interface de configurações é aberta para que sejam indicadas as opções de execução daquele plugin, tais como arquivo de origem (caso necessário) e arquivo de destino, além das informações específicas a cada tarefa a ser realizada. Assim, a ferramenta foi desenvolvida para ser flexível, pois permite em sua interface a configuração de todos os critérios envolvidos em cada plugin, tais como: todos valores de pesos e corte a serem considerados para os cálculos em cada função de similaridade, além de possibilitar a indicação e alteração dos nós do arquivo XML que deverão ser utilizados para buscar cada informação. Outra vantagem observada na ferramenta é a extensibilidade a novos componentes e, portanto, funcionalidades, que podem ser criadas ou substituídas, e utilizadas juntamente com os já existentes (XML Etl, XML Cft e XML Smt); E, por permitir diversas formas de arranjo entre seus componentes (adaptabilidade), a ferramenta possibilita o encadeamento de componentes do 67

69 Apatar de acordo com o número de fontes de dados, desde que respeitando a quantidade de conectores disponíveis para entrada e saída de informações de cada componente. Com isso, a ferramenta permite a comparação de mais de dois arquivos XMLs, conforme mostrado em FIG FIG Projeto de comparação de quatro arquivos XMLs (quatro fontes distintas) No capítulo de experimentos (Capítulo 5) está descrita toda a funcionalidade da ferramenta. 68

70 5 EXPERIMENTOS 5.1 VISÃO GERAL A realização dos experimentos objetivou a validação dos critérios utilizados para o fusionamento das informações (FIG. 4-6) e da arquitetura proposta no Capítulo 4, onde, inicialmente, os dados de dois arquivos (formato XML) oriundos de duas fontes distintas, são analisados e, ao final do processo, todas as informações são fusionadas em um só arquivo. E este arquivo, por apresentar ao decisor somente as informações mais corretas acerca de cada elemento, minimiza a sobrecarga de informações apresentada ao decisor, agregando maior qualidade à decisão pois identifica os objetos do mundo real. Os experimentos foram planejados a partir de uma adaptação da pesquisa de (BARROS, WERNER, & TRAVASSOS, 2002), com a utilização de um conjunto simulado de dados para o experimento (ver APÊNDICE), em virtude do sigilo das informações de natureza militar, sem, contudo, deixar de se preocupar em apresentar as situações mais complexas de identificação de objetos. Como mecanismos de análise dos resultados obtidos, serão utilizadas as medidas de Precisão e Cobertura ou Revocação, bem como a qualidade das informações obtidas de cada fonte. Para tanto, calcula-se a qualidade da informação a partir de atributos da classe REPORTING-DATA e cuja classificação permite descartar informações de qualidade inferior. É intenção que a ferramenta seja utilizada no âmbito do Exército (Sistema de Comando e Controle do Exército) e como auxiliar na identificação de objetos recebidos pelo barramento de comunicação utilizado pelo SIPLOM, desenvolvido pela Marinha do Brasil. 5.2 CONFIGURAÇÃO DO AMBIENTE Visando analisar o funcionamento da ferramenta, foi realizada uma análise qualitativa utilizando uma base de dados simulados. O conjunto de dados utilizados nos experimentos foi composta de 56 mensagens, distribuídas em 69

71 dois arquivos XML1.xml e XML2.xml, respectivamente, contendo as informações de 22 objetos do mundo real, conhecidos. Os arquivos seguiram o Schema XML, estabelecido pelo modelo JC3IEDM, para troca de informações (MIP, 2012). As informações foram distribuídas em situações que podem levar ao fusionamento incorreto das mensagens e, consequentemente, a identificação incorreta de objetos, tais como: objetos distintos muito próximos geograficamente (sejam objetos pertencentes ao mesmo contexto ou não); observação de diferentes objetos em intervalos de tempo próximos (contexto distinto ou não); objetos próximos geograficamente e observados simultaneamente (mesmo contexto ou não); fontes de dados apresentando exatamente os mesmos critérios indicativos de qualidade (critérios ACC, credibility e reliability da classe REPORTING-DATA) ou objetos apresentando grandes variações nos critérios do REPORTING-DATA. O resultado final, após a fusão, obteve 23 pontos (que correspondem aos 22 objetos do mundo real), sendo que os pontos com ID (OBJ_ITEM_ID) 109 e 110 são relativos ao mesmo objeto e não foram fusionados. Estes pontos se encontravam no mesmo arquivo original, sendo portanto fornecidos por uma mesma fonte como objetos distintos. Isto exige uma estratégia de deduplicação e não de relacionamento de dados, o que não é o objetivo dos experimentos. Os IDs dos objetos relacionados no arquivo fusionado XMLFusion.xml foram: 100; 101; 103; 108; 109; 110; 111; 112; 114; 117; 119; 121; 125; 126; 204; 205; 214; 216; 218; 221; 223; 224 e 227. Os experimentos utilizaram os dados simulados já descritos e a interface do projeto padrao.aptr (aplicativo apatar), visando o fusionamento das informações de duas fontes distintas de dados, logo, dois arquivos distintos para análise e comparação, com a seguinte distribuição dos conectores Etl, Cft e Smt exibida na FIG. 5-1: 70

72 FIG. 5-1 Projeto padrão.aptr para fusionamento de duas fontes distintas A seguir serão detalhados os componentes desta configuração padrão: XML ETL O primeiro conector XML Etl foi configurado para receber as informações do arquivo XML1.xml e, após realizar o pré-processamento selecionado (stopwords, stemming e lematização), disponibilizar o resultado no arquivo ETL1.xml, conforme FIG. 5-2 FIG. 5-2 Configurações do plugin XML Etl da primeira fonte de dados 71

73 De forma análoga, o segundo conector foi configurado para realizar o préprocessamento do arquivo da segunda fonte de dados, de acordo com a configuração da FIG. 5-3: FIG. 5-3 Configurações do plugin XML Etl da segunda fonte de dados XML CFT Para realizar o cálculo da qualidade das informações oriundas do arquivo XML1.xml, fez-se necessário indicar, conforme a FIG. 5-4, quais os nós do arquivo correspondem a cada uma das informações (critérios do REPORTING- DATA), além do local de destino para o resultado do cálculo das qualidades (quality_node), e a localização da rede bayesiana (arquivo da rede bayesiana ou, caso o arquivo não exista, onde será criada a rede bayesiana em tempo de execução), conforme já descrito no Capítulo 4. Como o conector XML Cft é conectado ao XML Etl, o arquivo de saída deste é utilizado como origem de dados para a definição das qualidades, sendo desnecessário indicá-lo como arquivo de origem. 72

74 FIG. 5-4 Configurações do plugin XML Cft da primeira fonte de dados Para o cálculo das qualidades da segunda fonte de dados, deve-se configurar de forma análoga o segundo conector XML Cft, conforme mostrado em FIG FIG. 5-5 Configurações do plugin XML Cft da segunda fonte de dados Vale ressaltar que a qualidade final é calculada em função da qualidade dos dados e da fonte, informações obtidas a partir dos critérios do REPORTING- DATA (precision_node, credibility_node e trust_node), sendo o resultado armazenado no quality_node, para posterior uso pelo componente XML Smt (em caso de correspondência entre dois pares, priorizar o par de registro que será utilizado, considerando o de maior qualidade). Assim, este componente designa 73

75 um valor que está associado à confiabilidade da informação com base nos parâmetros disponíveis no REPORTING-DATA. Este valor representa a qualidade da fonte responsável pela informação, ou seja, o critério WHO indicado na FIG. 4-6 (estrela de critérios do Capítulo 4) XML SMT Os principais critérios de similaridade que afetam o fusionamento das informações e a consequente identificação correta dos objetos já foram descritos no Capítulo 4. E na ferramenta, esses critérios que variam para cada experimento, bem como seus respectivos campos no arquivo XML, são informados na interface de configuração do componente XML Smt, que implementa o Alinhamento Semântico e posterior Alinhamento Estrutural, conforme FIG FIG. 5-6 Interface do plugin XML Smt Para entender melhor o componente XML Smt (FIG. 5-6), sua interface foi dividida em três funcionalidades, de acordo com a natureza da informação: informações sobre o XML campos e arquivo destino; valores de corte para 74

76 as diversas similaridades específicas e a similaridade global final, além dos pesos de cada critério no cálculo da similaridade global. De forma análoga aos demais componentes (XML Etl e XML Cft), deve-se informar o local correspondente no XML de origem para cada informação que será utilizada no cálculo das similaridades. Assim, as informações sobre a qualidade calculada; tempo (data/hora) da observação; localização (latitude/longitude) do objeto observado; velocidade do objeto; descrição do objeto; tipo e ambiente correspondem aos campos quality_node; time_node; localization_node; velocity_node; similarity_node; type_node e environment_node. Como o conector XML Smt é conectado ao XML Cft, o arquivo de saída deste é utilizado como origem de dados para o cálculo das qualidades, sendo desnecessário indicá-lo como arquivo de origem. É necessário somente informar o destino das informações, o que no caso do componente XML Smt corresponde ao arquivo fusionado (XMLFusion). As informações sobre o contexto de cada ponto não precisam ser descritas pois as diversas correspondências entre os critérios tipo e ambiente são consultados do arquivo similaridades.txt pela ferramenta em tempo de execução (ver TAB. 4-8). Os valores de corte (já discutidos no Capítulo 4) para as similaridades específicas dos critérios tempo (time_variation_for_clustering), localização (localization_variation_for_clustering) e texto ou descrição do objeto (similarity_variation_for_clustering) foram selecionados com base nos erros máximos aceitáveis dos dados simulados. Estes valores podem ser configurados pelos usuários da ferramenta. Entretanto, como é difícil inferir o erro máximo para a similaridade global final (global_similarity_variation), diferentes valores foram testados, como será demonstrado na TAB. 5-1 e TAB Assim, os valores finais de corte, utilizados em todos os experimentos e mostrados em FIG. 5-7, foram: 8 horas para o critério tempo; 80 quilomêtros/hora para o critério localização; valor de Jaccard para similaridade de texto igual ou superior a 30 e percentual de 49 por cento de similaridade global. 75

77 FIG. 5-7 Valores de corte das similaridades A indicação de quais critérios serão considerados nos cálculos das similaridades é feita por meio do preenchimento do peso de cada critério, nos últimos campos da interface: tempo (time_weight), localização (localization_weight), descrição do objeto (similarity_weight) e contexto ao qual o objeto está inserido (context_weight). Este último utilizado na técnica Canopy Clustering, conforme já descrito no Capítulo 4. Ou seja, o valor zero indica peso zero para o correspondente critério, que não será considerado nos diversos cálculos de similaridade. E qualquer valor diferente disso indicará o respectivo peso do critério nas similaridades calculadas. Nos experimentos realizados não foram considerados pesos distintos entre os critérios, atribuindo-se peso 1 ou zero como forma de indicar a consideração ou não do critério na similaridade final. 5.3 PROVA DE CONCEITO Como nos experimentos realizados foram consideradas duas fontes distintas de dados, logo dois arquivos distintos para análise e comparação, todos os experimentos utilizaram as configurações do projeto padrão (padrao.aptr) para os componentes XML Etl e XML Cft. Contudo, para cada combinação de critérios foi necessário reavaliar a interface de configuração do plugin XML Smt, pois este componente é o responsável pelo alinhamento semântico-estrutural, principalmente nos valores de corte (FIG. 5-7) e pesos. Primeiramente, é necessário realizar análise da similaridade global, por considerar diversas funções de similaridade em seu resultado final, a fim de indicar o valor de corte mais adequado ao conjunto de dados utilizado. 76

78 Também é importante analisar se os critérios elencados no Capítulo 4 são adequados para a realização da fusão de dados. Relembrando a correspondência entre os critérios relacionados nos experimentos e os atributos considerados para o fusionamento das informações (FIG. 4-6), temos que os critérios tempo, localização e descrição correspondem aos critérios WHEN, WHERE e WHAT da estrela de critérios, ou seja, a data-hora em que o objeto foi visto, a velocidade/latitude/longitude onde o objeto foi visto e o texto que descreve o objeto. E o atributo HOW é representado pelo critério contexto, que indica a agregação do ambiente utilizado para deslocamento pelo objeto e o tipo de objeto avistado. Vale ressaltar que o atributo WHO, que indica a qualidade da origem das informações, é configurável por meio da modificação das probabilidades da rede bayesiana, sendo calculado a partir dos critérios do REPORTING-DATA e armazenado em quality_node. Finalmente, o critério WHY, não explorado neste experimento, deverá ser desenvolvido como uma futura extensão desta ferramenta. Os experimentos que utilizam somente um critério, por serem muito simples e insuficientes para realizarem a fusão das informações corretamente, não serão objeto deste experimento. Bem como as combinações entre os critérios que desconsideram o tempo, pois esse critério é crucial para o não comprometimento do resultado. Assim, os critérios serão apresentados combinados dois a dois, até o total de quatro critérios: tempo+contexto; tempo+descrição; tempo+localização; tempo+localização+descrição e tempo+localização+descrição+contexto. Nas próximas subseções, é apresentado o estudo para definição do valor de corte da similaridade global, seguido dos experimentos realizados, juntamente com as configurações referentes aos pesos dos critérios, além da respectiva análise dos resultados obtidos, visando verificar a real importância da consideração dos critérios no processo de fusionamento de dados. 77

79 5.3.1 SIMILARIDADE GLOBAL Os valores de corte para os critérios tempo, localização e descrição (similaridade textual) são passíveis de serem inferidos a partir do conjunto de dados, pois representam erros máximos admissíveis para estas medidas. Entretanto, para a similaridade global, a definição de um valor de corte é um pouco mais complexo, pois considera a combinação de diferentes funções de similaridade. Por isso foi realizado o experimento, adotando-se duas estratégias tempo+localização+descrição e tempo+localização+descrição+contexto, com variações no valor da similaridade global para ajuste do valor mais adequado ao nosso conjunto de dados. Para analisar os resultados obtidos nos experimentos realizados, foram utilizados os conceitos de Precisão e Cobertura (Baeza-Yates & Ribeiro-Neto, 2013). Bem resumidamente, Precisão mede a capacidade do Sistema em retornar os documentos mais relevantes. E a Cobertura mede a capacidade do Sistema em encontrar os documentos mais relevantes da coleção. Sem entrar na discussão bem extensa sobre a definição de relevância, neste trabalho consideramos documentos relevantes aqueles documentos identificados corretamente, ou seja, os objetos identificados corretamente. As seguintes fórmulas podem ser utilizadas para fornecer as medidas de Precisão e Cobertura (Baeza-Yates & Ribeiro-Neto, 2013): Adaptando as fórmulas para o nosso trabalho, temos que: 78

80 Para a estratégia empregando tempo+localização+descrição, foram obtidos os valores apresentados na TAB Percebe-se que o ponto de cruzamento entre as curvas Precisão e Cobertura ocorre próximo a 50%, indicando o valor mais adequado para ser utilizado como valor de corte da similaridade global, pois maximiza o balanceamento entre esses indicadores, como pode ser visto na FIG Sim Global (valor de corte) TAB Análise comparativa Sim Global (tempo+localização+descrição) Total Objetos Mundo Real Total Objetos Identificados Acertos Erros Precisão Cobertura 10% (FN) 1 0,65 20% (FN) 1 0,70 30% (FN) 1 0,87 40% % % % (03FN/01FP) 05 (02FN/03FP) 05 (01FN/04FP) 12 (01FN/11FP) 0,95 0,87 0,88 0,91 0,85 0,96 0,67 0,96 70% (FP) 0, % (FP) 0, % (FP) 0,41 1 (FN) = falso-negativo / (FP) = falso-positivo 79

81 1,2 1 0,8 0,6 0,4 0,2 Precisão Cobertura 0 10% 20% 30% 40% 50% 60% 70% 80% 90% Similaridade Global FIG Gráfico Sim Global (tempo+localização+descrição) A mesma análise comparativa realizada para a estratégia tempo+localização+descrição foi executada para a estratégia tempo+localização+descrição+contexto, cujos valores obtidos são apresentados na TAB Assim, analisando a TAB. 5-2, percebe-se que os experimentos que utilizam valores entre 10% e 40% para similaridade global apresentam objetos que não foram identificados (falso-negativo) e a partir de similaridade global igual a 50% objetos são identificados incorretamente (falso-positivo). TAB Análise comparativa Sim Global (tempo+localização+descrição+contexto) Sim Global (valor de corte) Total Objetos Mundo Real Total Objetos Identificados Acertos Erros Precisão Cobertura 10% (FN) 1 0,52 20% (FN) 1 0,57 30% (FN) 1 0,74 40% (FN) 1 0,78 49% % (FP) 0, % (FP) 0, % (FP) 0, % (FP) 0, % (FP) 0,41 1 (FN) = falso-negativo / (FP) = falso-positivo 80

82 Complementando, na FIG. 5-9, observa-se o ponto em que as curvas Precisão e Cobertura se cruzam, indicando o valor ideal de 49% para a similaridade global neste conjunto de dados. Vale ressaltar que os objetos ID=109 e ID=110 permanecem como corretos, sendo levados ao decisor, que, definirá qual será considerado. 1,2 1 0,8 0,6 0,4 0,2 Precisão Cobertura 0 10% 20% 30% 40% 50% 60% 70% 80% 90% Similaridade Global FIG Gráfico Sim Global (tempo+localização+descrição+contexto) Assim sendo, o valor selecionado para a similaridade global no contexto dos experimentos realizados neste trabalho foi o valor de corte de 49%. Em outro cenário distinto, recomenda-se realizar procedimento similar, a fim de calibrar a ferramenta e determinar o valor de corte mais adequado para a similaridade global. 81

83 5.3.2 TEMPO+CONTEXTO A realização do experimento considerando-se somente os critérios tempo e contexto, necessita da configuração dos campos time_weight e context_weight com o valor 1 para peso e os demais (localization_weight e similarity_weight) com o valor zero, como mostrado em FIG. 5-10: FIG Configuração XML Smt critérios tempo e contexto E os resultados obtidos seguindo a configuração anterior foram apresentados na TAB. 5-3: IDs dos Objetos do Mundo Real TAB. 5-3 Resultados de tempo+contexto IDs dos Objetos Identificados IDs dos Objetos Identificados corretamente IDs dos Objetos Identificados incorretamente IDs dos Objetos não identificados X X X X X X X X X X X X X X X X X X X X X X X 82

84 A partir das fórmulas de Precisão e Cobertura, temos como Resultados Obtidos: Total de objetos identificados: 13 Total de objetos identificados corretamente: 13 Total de erros: 10, sendo: Identificados incorretamente (falso-positivo): 0 Não identificados (falso-negativo): 10 (114; 117; 204; 214; 216; 218; 221; 223; 224 e 227) Não considerar um importante critério como a localização do objeto no fusionamento, bem como a própria descrição do objeto foi ineficiente, conforme mostrado nos resultados, visto que inúmeros objetos deixaram de ser identificados. Apesar do critério contexto ser de aplicação importante para a indexação Canopy Clustering (Capítulo 4), não se mostrou suficiente, juntamente com o tempo, para fusionar e identificar corretamente os objetos do mundo real. Com o exposto, como resultado desse experimento é necessário buscar estratégia que contenha uma combinação de critérios mais eficiente. 83

85 5.3.3 TEMPO+DESCRIÇÃO Ao se considerar somente os critérios tempo e descrição do objeto somente os campos time_weight e similarity_weight da interface XML Smt foram configurados com o valor 1 para peso (ver FIG ). FIG Configuração XML Smt critérios tempo e descrição A ferramenta, configurada com os critérios anteriores, apresentou os seguintes resultados, conforme TAB. 5-4 : TAB. 5-4 Resultados de tempo+descrição IDs dos Objetos do Mundo Real IDs dos Objetos Identificados IDs dos Objetos Identificados corretamente IDs dos Objetos Identificados incorretamente IDs dos Objetos não identificados X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

86 Resultados Obtidos: Total de objetos identificados: 27 Total de objetos identificados corretamente: 21 Total de erros: 08, sendo: Identificados incorretamente (falso-positivo): 06 (102; 113; 201; 212; 213 e 215) Não identificados (falso-negativo): 02 (204 e 223) Desprezar a localização do objeto, critério de grande contribuição no fusionamento da informação não é desejável, como pudemos observar no resultado anterior que relacionou muitos falso-positivos deixou de identificar alguns objetos (falso-negativos). Como mostrado em TAB. 5-4, esse experimento comprovou que o fusionamento utilizando somente os critérios tempo e descrição do objeto é insuficiente. 85

87 5.3.4 TEMPO+LOCALIZAÇÃO Para realizar o experimento considerando-se somente os critérios tempo e localização, os campos time_weight e localization_weight receberam valor 1 para peso e os demais (similarity_weight e context_weight) valor zero, conforme FIG FIG Configuração XML Smt critérios tempo e localização Com essa configuração a ferramenta apresentou os seguintes resultados descritos na TAB. 5-5: TAB. 5-5 Resultados de tempo+localização IDs dos Objetos do Mundo Real IDs dos Objetos Identificados IDs dos Objetos Identificados corretamente IDs dos Objetos Identificados incorretamente IDs dos Objetos não identificados X X X X X X X X X X X X X X X X X X X X X X X

88 Resultados Obtidos: Total de objetos identificados: 20 Total de objetos identificados corretamente: 20 Total de erros: 03, sendo: Identificados incorretamente (falso-positivo): 0 Não identificados (falso-negativo): 03 (117; 204 e 223) Mesmo sendo os critérios tempo e localização muito significativos para o fusionamento, desprezar a descrição do objeto não é adequado, visto que alguns objetos deixaram de ser identificados. Assim, o experimento indicou que o fusionamento utilizando somente os critérios tempo e localização é muito bom. Foi o melhor para as execuções da ferramenta realizadas até esta fase do experimento. Porém, ainda não é suficiente para identificar corretamente alguns objetos. 87

89 5.3.5 TEMPO+LOCALIZAÇÃO+DESCRIÇÃO Ao se considerar o tempo, localização e descrição do objeto como critérios para fusionamento, somente o campo context_weight receberá o valor zero na atribuição de peso. Os demais campos, conforme FIG. 5-13, serão configurados com peso 1. FIG Configuração XML Smt critérios tempo, localização e descrição Com essa configuração foram obtidos os resultados descritos na TAB. 5-6 : TAB. 5-6 Resultados de tempo+localização+descrição IDs dos Objetos do Mundo Real IDs dos Objetos Identificados IDs dos Objetos Identificados corretamente IDs dos Objetos Identificados incorretamente IDs dos Objetos não identificados X X X X X X X X X X X X X X X X X X X X X X X X X X

90 Resultados Obtidos: Total de objetos identificados: 24 Total de objetos identificados corretamente: 21 Total de erros: 05, sendo: Identificados incorretamente (falso-positivo): 03 (200; 202 e 206) Não identificados (falso-negativo): 02 (117 e 223) Observa-se que nesta execução da ferramenta, os valores de Precisão foram piores do que os valores obtidos pela consideração de tempo+localização. Isto ocorreu, possivelmente, em virtude da imprecisão na descrição dos objetos. Porém, o valor de cobertura aumentou, ou seja, novos relacionamentos relevantes entre objetos foram realizados. Isto não deixa claro qual estratégia é mais vantajosa até o momento. 89

91 5.3.6 TEMPO+LOCALIZAÇÃO+DESCRIÇÃO+CONTEXTO A inclusão do critério contexto no processo de fusionamento visa melhorar a Precisão e a Cobertura no processo de fusão de dados. A Precisão é melhorada na medida em que somente objetos com alguma similaridade contextual podem ser fusionados. E a melhoria da cobertura ocorre na medida em que objetos com contextos muito similares tem o seu valor de similaridade global aumentado. Além disso, o contexto permite implementar a indexação (Canopy Clustering), com a redução da complexidade, pois, somente os objetos cuja similaridade contexto forem diferentes de zero serão comparados pelas demais funções de similaridade, reduzindo o número de comparações entre os objetos. Ao se considerar o tempo, localização, descrição do objeto e o contexto como critérios para fusionamento, todos os campos deverão ser configurados com peso 1 (ver.fig. 5-14) FIG Configuração XML Smt critérios tempo, localização, descrição e contexto A ferramenta, configurada com todos os critérios selecionados, apresentou os seguintes resultados, conforme TAB. 5-7: Resultados Obtidos: Total de objetos identificados: 23 Total de objetos identificados corretamente: 23 Total de erros: 0 90

92 TAB. 5-7 Resultados de tempo+localização+descrição+contexto IDs dos Objetos do Mundo Real IDs dos Objetos Identificados IDs dos Objetos Identificados corretamente IDs dos Objetos Identificados incorretamente IDs dos Objetos não identificados X X X X X X X X X X X X X X X X X X X X X X X - - Os valores encontrados para Precisão e Cobertura indicam que os melhores resultados foram obtidos utilizando-se esta abordagem. Assim, pode-se considerar que a inclusão do contexto melhorou os resultados obtidos pelas abordagens utilizando tempo+localização ou tempo+localização+descrição, resolvendo os problemas encontrados. Destacamos que, conforme descrito no Capítulo 4, a ferramenta possibilita a eliminação de objetos similares em cascata quando existirem objetos em um mesmo arquivo e pelo menos um deles apresentar o valor de qualidade (quality_node) inferior aos objetos similares do outro arquivo (record linkage). Para exemplificar essa eliminação em cascata, a FIG descreve a eliminação dos objetos de ID=106 (qualidade=519), ID=206 (qualidade =519), e ID=107 (qualidade =59), em detrimento ao objeto de ID=205 (qualidade =1000). 91

93 Comparando todos os objetos do primeiro arquivo XML com todos os objetos do segundo XML, temos que o objeto de ID=106 elimina o de ID=206, pois ambos apresentam o mesmo valor de qualidade e na ferramenta, simplificou-se a implementação para, em caso de empate, considerar o objeto do primeiro arquivo. Em prosseguimento, entre os objetos de ID=106 e ID=205, prevalece o segundo que apresenta valor de qualidade superior ao primeiro. E, finalmente, entre os objetos de ID=107 e ID=205, a comparação indica que o primeiro será eliminado por apresentar um valor de qualidade inferior ao segundo. Assim, resta apenas o objeto de ID=205. FIG Record Linkage 92

94 Pode-se observar também que em todos os experimentos o objeto ID=109 foi identificado juntamente com o ID=110. Apesar do objeto ID=109 não ser o mais correto, a sua não eliminação faz sentido pois um objeto não pode ser eliminado em detrimento de outro de menor ou igual qualidade, mesmo que haja indícios de similaridade. Consequentemente, os dois objetos permanecem como corretos, sendo levados ao decisor, que, definirá qual será considerado. Como exemplo, a FIG mostra essa situação, denominada deduplicação: FIG Deduplicação 93

95 5.4 ANÁLISE DOS RESULTADOS OBTIDOS No nosso experimento o melhor resultado foi obtido com a combinação dos critérios tempo+localização+descrição+contexto (TAB. 5-8), fornecendo indícios de que essa é a abordagem mais vantajosa dentre as demais consideradas. Estratégia tempo + contexto tempo + descrição tempo + localização tempo + localização + descrição tempo + localização + descrição + contexto TAB. 5-8 Análise comparativa entre as diversas estratégias Total Objetos Mundo Real Total Objetos Identificados Acertos Erros Precisão Cobertura , ,78 0, , ,88 0, Esse resultado é confirmado a partir da curva Precisão-Cobertura (FIG. 5-17), cujo cenário ideal preconiza que os valores de Precisão e Cobertura ideais sejam iguais a 1 (Baeza-Yates & Ribeiro-Neto, 2013). E no nosso experimento, os valores do par Precisão-Cobertura atendem o preconizado. 94

96 Precisão 1,5 1 0,5 0 Precisão X Cobertura 0,57 0,91 0,87 0,91 1 Cobertura FIG Gráfico Precisão X Cobertura das estratégias utilizadas 95

97 6 CONCLUSÃO O grande volume de dados produzido pela crescente disponibilidade de tecnologias, sejam sensores, imagens, dados ou textos, causa uma sobrecarga de informação que prejudica a percepção do que é importante. Assim, o desafio da sobrecarga da informação, quando não solucionado, prejudica a capacidade do decisor tomar decisões adequadas, o que, em um Sistema de Comando e Controle, é extremamente danoso por lidar com crises, riscos e vidas humanas. Para solucionar o problema da sobrecarga da informação, este trabalho apresentou uma estratégia baseada na identificação das informações que são relacionadas a um mesmo objeto, presente em um cenário operativo, com o agrupamento e fusionamento dessas informações, o que permite subsidiar, com maior segurança, a tomada de decisão pelo Comandante. E para isso foi proposta uma arquitetura para fusão de dados oriundos do modelo JC3IEDM, baseada no conceito de três alinhamentos: sintático, das qualidades e semântico-estrutural, com a inclusão de critérios para especificação das informações de maior qualidade, descrevendo mais claramente os passos necessários para se alcançar parcialmente o objetivo do Nível 2 do Modelo JDL. Também foi desenvolvida uma ferramenta onde foi realizada uma prova de conceito utilizando uma base de dados simulada, atendendo ao Modelo de Dados JC3IEDM. E, durante os experimentos, os conceitos e técnicas propostas foram avaliadas, indicando que a estratégia adotada é promissora. As seguintes contribuições podem ser relacionadas como resultado deste trabalho, estando de acordo com os objetivos propostos: Análise comparativa dos Modelos de Fusão de Dados; Proposição de uma arquitetura para fusão de dados alinhada ao modelo JDL e à técnica de relacionamento de dados; Proposição de um modelo para obtenção da qualidade, por meio da construção de uma rede bayesiana a partir de critérios da entidade REPORTING-DATA do modelo JC3IEDM. 96

98 Proposição de uma técnica para fusão de dados inspirada na indexação Canopy Clustering, por meio de uma matriz esparsa do critério contexto, aliada ao cálculo de similaridades envolvendo múltiplos critérios. Realização do mapeamento dos critérios utilizados na fusão de dados para os atributos das entidades do modelo de dados JC3IEDM, classificados de acordo com o plano de ação 5W1H. Para evolução da solução proposta, algumas sugestões de melhorias foram levantadas, que poderão ser investigadas para resolução em trabalhos futuros: Automatização do cálculo, via aprendizado de máquina, dos valores ideais para a obtenção dos pontos de corte ideais para as similaridades específicas e a similaridade global; Desenvolvimento do critério WHY, constante da estrela de critérios. Uma possível solução poderia ser alcançada por meio da entidade ACTION do modelo de dados JC3IEDM; Automatização do feedback, visando a realimentação e ajuste dos pesos das redes bayesianas e cálculo das probabilidades dos estados associados aos critérios; Enriquecimento do processo de obtenção da similaridade textual (critério descrição), com substituição da lista de sinônimos (synonym.txt), pela utilização de ontologias, termos exatos e sinônimos, verificados por meio de tesauro 12 (wordnet 13 ) ou lista de termos controlados do domínio 14 ; Implementação da complementação dos dados no arquivo XMLFusion.xml, onde, após a seleção do objeto de maior qualidade, verificar neste a ausência de alguma informação e buscá-la no outro par descartado; e Implementação da sumarização dos dados no arquivo XMLFusion.xml, onde, ao invés de descartar um dos objetos similares e considerar o 12 Tesauro é uma lista estruturada em categorias e associações de termos, tendo como componentes: os termos, a estrutura entre eles e o conjunto de remissivas (palavras que não foram escolhidas para representar os termos). O conjunto de remissivas é formado por sinonímias ou termos equivalentes. (Pinheiro, 2004) apud (Vieira, 1999). 13 OpenWN-PT (Brazilian Portuguese Wordnet), autor: Alexandre Rademaker (FGV/EMAp, Rio de Janeiro, Brazil), disponível em: https://github.com/arademaker/wordnet-br. 14 Vocabulário Controlado: lista de termos selecionados e padronizados (Pinheiro, 2004) apud (Vieira, 1999). 97

99 objeto de maior qualidade, poderia ser interessante criar um novo objeto com as informações de ambos. E por fim, objetiva-se que a estratégia contribua efetivamente para a Interoperabilidade entre as Forças Armadas, além de possibilitar uma otimização em relação ao tempo e nível de confiabilidade dos Acompanhamentos das Operações coordenadas pelo Ministério da Defesa. 98

100 7 REFERÊNCIAS BIBLIOGRÁFICAS Aizawa, A., & Oyama, K. (2005). A fast linkage detection scheme for multi-source information integration. Information Retrieval and Integration, Retrieved from Baeza-Yates, R., & Ribeiro-Neto, B. (2013). Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. (Bookman, Ed.) (2 a ed., p. 614). BARROS, M., WERNER, C., & TRAVASSOS, G. (2002). Um estudo experimental sobre a utilização de modelagem e simulação no apoio à gerência de projetos de software. In XVI Simpósio Brasileiro de Engenharia de Software. Retrieved from erimental+sobre+a+utilização+de+modelagem+e+simulação+no+apoio+à+gerên cia+de+projetos+de+software#0 Barros, R. O. (2009). Qualidade de Informação na Web: Um Prognóstico Fuzzy Baseado em Metadados. Universidade Federal do Rio de Janeiro. Retrieved from Batini, C., Ceri, S., & Navathe, S. (1992). Conceptual Database Design: an Entityrelationship approach. Redwood City, CA, USA: Benjamin-Cummings Publishing Co., Inc. Retrieved from QAAAAMAAJ Batini, C., Lenzerini, M., & Navathe, S. (1986). A Comparative Analysis of Methodologies for Database Schema Integration. ACM Computing Surveys (CSUR), 18(4), doi: / Bianco, G. D. (2012). Uma metodologia para deduplicação de grandes bases de dados. inf.ufrgs.br. Universidade Federal do Rio Grande do Sul. Retrieved from Bianco, G. D. (2014). Redução do Esforço do Usuário na Configuração da Deduplicação de Grandes Bases de Dados. Boyd, J. (1987). A discourse on winning and losing. Retrieved from winning+and+losing#0 Callegaro, R., Montez, C., Pinto, A., & Moraes12, R. (2014). Uma Arquitetura para Fusão de Dados e Detecção de Outliers em Sensores de Baixo Custo de Redes de Sensores sem Fio. In sbrc2014.ufsc.br (pp. 3 16). Retrieved from 99

101 Carvalho, H. S., Heinzelman, W. B., Murphy, A. L., & Coelho, C. J. N. (2003). A General Data Fusion Architecture. In th International Conference on Information Fusion (pp ). Citeseer. doi: /icif Carvalho, J. C. P., & da Silva, A. S. (2003). Finding similar identities among objects from multiple web sources. Proceedings of the Fifth ACM International Workshop on Web Information and Data Management - WIDM 03, 90. doi: / Cecchin, F. (2010). Um Modelo para resolução de conflitos sobre repositório de dados XML. Universidade Federal do Paraná. Retrieved from quence=1 Christen, P. (2012). A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication. IEEE Transactions on Knowledge and Data Engineering, 24(9), doi: /tkde Clausewitz, C. P. G. von. (1955). De la Guerre. Paris, France: Éditions de Minuit. Cohen, W. (1998). Integration of heterogeneous databases without common domains using queries based on textual similarity. ACM SIGMOD Record. Retrieved from Coutto Filho, M. B. Do, Souza, J. C. S. de, & Schilling, M. T. (2007). Sobre o problema da integração generalizada de dados. Sba: Controle & Automação Sociedade Brasileira de Automatica, 18(1), doi: /s Dasarathy, B. (1997). Sensor fusion potential exploitation-innovative architectures and illustrative applications. Proceedings of the IEEE. Retrieved from Dong, X., & Naumann, F. (2009). Data fusion: Resolving Data Conflicts for Integration. Proceedings of the VLDB Endowment, 2(2), Retrieved from Dubois, D., & Prade, H. (1992). Combination of fuzzy Information in the Framework of Possibility Theory. In Data Fusion in Robotics and Machine intelligence, Academic Press (pp ). Esteban, J., Starr, A., Willetts, R., Hannah, P., & Bryanston-Cross, P. (2005). A Review of data fusion models and architectures: towards engineering guidelines. Neural Computing and Applications, 14(4), doi: /s Fernandes, M. (2013). Proposta de Modelo de Fusão de Dados com Foco na Qualidade da Informação e na Experiência do Usuário. Retrieved from 100

102 Fiorini, P. D. C., & Jabbour, C. J. C. (2014). Análise do apoio dos sistemas de informação para as práticas de gestão ambiental em empresas com ISO estudo de múltiplos casos, 19, Retrieved from Gerz, M., Loaiza, F., & Chaum, E. (2006). An Object-Oriented XML Schema for the MIP Joint Command, Control, and Consultation Information Exchange Data Model. In 11th International Command and Control Research and Technology Symposium. San Diego, CA. Retrieved from Hall, M. J. M., Hall, C. S. A., & Tate, T. (2000). Removing the HCI Bottleneck: How the Human-Computer Interface (HCI) Affects the Performance of Data Fusion Systems. In of the MSS, National Symposium on Sensor and Data Fusion (Vol. II, pp ). San Diego, CA. Retrieved from CI+Bottleneck:+How+the+Human- Computer+Interface+(HCI)+Affects+the+Performance+of+Data+Fusion+Systems# 0 Harris, C., & White, I. (1987). Advances in Command, Control and Communication systems (p. 402). Retrieved from nces+in+command,+control+%26+communication%22&lr=&hl=pt- BR&source=gbs_navlinks_s Hui, F. O. O. P. E. K. (2008). Application of data and information fusion. Information Fusion. National University of Singapore. Retrieved from Júnior, J. G. de C. (2010). Fusão de dados multi-nível em ambientes de monitoração contínua de sistemas táticos navais utilizando múltiplas lógicas. Chemistry & biodiversity. Wiley Online Library. Khalifa, F. A., & Alouani, A. (2009). Survey of watershed modeling and sensor data fusion. In 41st Southeastern Symposium on System Theory (pp ). IEEE. doi: /ssst Lee, H., Lee, B., Park, K., & Elmasri, R. (2010). Fusion Techniques for Reliable Information: A Survey. International Journal of Digital Content Technology and Its Applications, 4(2), doi: /jdcta.vol4.issue2.9 Llinas, J., Bowman, C., Rogova, G., Steinberg, A., Waltz, E., & White, F. (2004). Revisiting the JDL data fusion model II. In th International Conference on Information Fusion (pp ). Retrieved from r=ada

103 Marques, S. A. (2012). Qualidade da Informação de um Sistema ERP em Comércio Varejista de Alimentos. Universidade Federal de Santa Catarina. Retrieved from https://repositorio.ufsc.br/handle/ / Mccallum, A., Nigam, K., & Ungar, L. H. (2000). Efficient Clustering of High- Dimensional Data Sets with Application to Reference Matching. Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 00), doi: / Mehrotra, S. (2003). Efficient record linkage in large data sets. Eighth International Conference on Database Systems for Advanced Applications, (DASFAA 2003). Proceedings., doi: /dasfaa Meschesi, C. P. M. L. (2010). A utilização do tratamento de sobrecarga de dados através de fusão para aplicação em sistemas de apoio à decisão no CASNAV: uma estratégia para aplicação de fusão de dados. Escola de Guerra Naval. MIP. The Joint Consultation, Command and Control Information Exchange Data Model. Multilateral Interoperability Programme. Germany, Moresi, E. A. D. (2000). Delineando o valor do sistema de informação de uma organização. Ciência Da Informação, 29, Retrieved from Nakamura, E. F. (2007). Fusão de dados em redes de sensores sem fio. Universidade Federal de Minas Gerais. Retrieved from Negrão, T. (2013). O ensino de operações conjuntas nas escolas de altos estudos das forças armadas. Coleção Meira Mattos-Revista das (pp ). Retrieved from Oliveira, C. A. de. (2009). Modelo para apoio à Decisão no processo de classificação de unidades móveis no cenário marítimo Instituto Tecnológico de Aeronáutica. Retrieved from Oliveira, L. de. (2005). Uma abordagem para visao artificial em robótica móvel baseada em fusao de sensores. Universidade Federal da Bahia. Retrieved from Ozsu, M., & Valduriez, P. (2011). Principles of Distributed Database Systems (Third.). Retrieved from &dq=principles+of+distributed+database+systems&ots=lpbnimzww6&sig=6um 6HrGcXahvVHdYfwXSlXqYc88 102

104 Padilha, R. P. (2010). Apoio à colaboração entre equipes de comando e de operações na resposta a emergências: uma proposta utilizando computação móvel. Universidade Federal do Rio de Janeiro. Retrieved from PERES, J. Modelo de Dados JC3IEDM. Centro de Comunicações e Guerra Eletrônica do Exército, Pinheiro, W. A. (2004). Busca em Portais Semânticos: Uma Abordagem baseada em Ontologias. Instituto Militar de Engenharia. Retrieved from is+semânticos:+uma+abordagem+baseada+em+ontologias#0 Pinheiro, W. A. (2010). Arcabouço Autonômico de Padrões para Eliminação de Dados. Universidade Federal do Rio de Janeiro. Putten, P. Van der, & Gupta, J. K. and A. (2002). Why the information explosion can be bad for data mining, and how data fusion provides a way out. In 2nd SIAM International Conference on Data Mining (pp ). doi: Russel, S, & Norvig, P. (1995). Artificial Intelligence: a Modern Approach (AIMA) Prentice-Hall. Pages , Santos, J. C. dos. (2006). O modelo de dados da OTAN para intercâmbio de informações de comando e controle conceituação, aplicações e reflexos para o SC2FTER / SISMC2. Escola de Comando e Estado-Maior do Exército. Retrieved from https://www.defesa.gov.br/arquivos/espaco_academico/biblioteca_virtual/teses/cie ncias_exatas/alairto_almeida_callai_modelo_dados_otan.pdf Santos, R. N. M. dos. (2000). Métodos e Ferramentas para Gestão de Inteligência e do conhecimento. Ciência Da Informação, 5, Retrieved from Shulsky, A., & Schmitt, G. (2002). Silent warfare: understanding the world of intelligence. Retrieved from dq=silent+warfare:+understanding+the+world+of+intelligence&ots=mgb0uhpt6 P&sig=6I76PrKbERjH1UNBuOW2RXQv9nc Stábile, S. (2001). Um estudo sobre a desconexão entre usuários e desenvolvedores de sistemas de informação e sua influência na obtenção de informação pelo decisor. Dados. Universidade de São Paulo. Retrieved from Steinberg, A. N., Bowman, C. L., & White, F. E. (1999). Revisions to the JDL data fusion model. In Proceedings of SPIE (Vol. 3719, pp ). Orlando, USA: SPIE. doi: /

105 TARANTI, P.-G. (2012). Um Roteiro para Projetos de Interoperabilidade em Sistemas de C2: Como implantar um programa de interoperabilidade. Escola de Guerra Naval. Vieira, M. da G. C. (1999). Perfil dos Sistemas de Indexação de documentos utilizados nas bibliotecas e centros de documentação voltados à educação na América Latina e países de língua portuguesa. White, F. E. (1991). Data Fusion Lexicon. In The Data Fusion Subpanel of the Joint Directors of Laboratories, Technical Panel for C3 (Vol. 15, p. 15). San Diego, CA. Retrieved from 104

106 8 APÊNDICE: Conjunto dedados Simulados 105

107 106

108 107

109 108

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

2 Auto-sintonia de Bancos de Dados e Agentes de Software

2 Auto-sintonia de Bancos de Dados e Agentes de Software 2 Auto-sintonia de Bancos de Dados e Agentes de Software A uso da abordagem de agentes de software 1 pode trazer benefícios a áreas de aplicação em que é necessário construir sistemas autônomos, ou seja,

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Mensuração do Desempenho do Gerenciamento de Portfólio de Projetos: Proposta de Modelo Conceitual

Mensuração do Desempenho do Gerenciamento de Portfólio de Projetos: Proposta de Modelo Conceitual Pedro Bruno Barros de Souza Mensuração do Desempenho do Gerenciamento de Portfólio de Projetos: Proposta de Modelo Conceitual Dissertação de Mestrado Dissertação apresentada ao Programa de Pósgraduação

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

Uma arquitetura baseada em agentes de software para a automação de processos de gerênciadefalhasemredesde telecomunicações

Uma arquitetura baseada em agentes de software para a automação de processos de gerênciadefalhasemredesde telecomunicações Adolfo Guilherme Silva Correia Uma arquitetura baseada em agentes de software para a automação de processos de gerênciadefalhasemredesde telecomunicações Dissertação de Mestrado Dissertação apresentada

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

1 http://www.google.com

1 http://www.google.com 1 Introdução A computação em grade se caracteriza pelo uso de recursos computacionais distribuídos em várias redes. Os diversos nós contribuem com capacidade de processamento, armazenamento de dados ou

Leia mais

COBIT (CONTROL OBJECTIVES FOR INFORMATION AND RELATED TECHNOLOGY)

COBIT (CONTROL OBJECTIVES FOR INFORMATION AND RELATED TECHNOLOGY) Universidade Federal de Santa Catarina Departamento de Informática e Estatística INE Curso: Sistemas de Informação Disciplina: Projetos I Professor: Renato Cislaghi Aluno: Fausto Vetter Orientadora: Maria

Leia mais

Luiz Fernando Fernandes de Albuquerque. Avaliação de algoritmos online para seleção de links patrocinados. Dissertação de Mestrado

Luiz Fernando Fernandes de Albuquerque. Avaliação de algoritmos online para seleção de links patrocinados. Dissertação de Mestrado Luiz Fernando Fernandes de Albuquerque Avaliação de algoritmos online para seleção de links patrocinados Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de

Leia mais

Este trabalho tem como objetivo propor um modelo multicritério para a priorização dos modos de falha indicados a partir de uma aplicação do processo

Este trabalho tem como objetivo propor um modelo multicritério para a priorização dos modos de falha indicados a partir de uma aplicação do processo 1 Introdução A atual regulamentação do setor elétrico brasileiro, decorrente de sua reestruturação na última década, exige das empresas o cumprimento de requisitos de disponibilidade e confiabilidade operativa

Leia mais

SISTEMAS DE APOIO À DECISÃO SAD

SISTEMAS DE APOIO À DECISÃO SAD SISTEMAS DE APOIO À DECISÃO SAD Conceitos introdutórios Decisão Escolha feita entre duas ou mais alternativas. Tomada de decisão típica em organizações: Solução de problemas Exploração de oportunidades

Leia mais

CobiT 4.1 Plan and Organize Manage Projects PO10

CobiT 4.1 Plan and Organize Manage Projects PO10 CobiT 4.1 Plan and Organize Manage Projects PO10 Planejar e Organizar Gerenciar Projetos Pedro Rocha http://rochapedro.wordpress.com RESUMO Este documento trás a tradução do objetivo de controle PO10 (Gerenciamento

Leia mais

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso 18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso Uma das características das Ciências Exatas é a precisão das informações obtidas; a segurança dos dados extraídos nos processos usados. Cálculos

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação SOFT DISCIPLINA: Engenharia de software AULA NÚMERO: 08 DATA: / / PROFESSOR: Andrey APRESENTAÇÃO O objetivo desta aula é apresentar e discutir conceitos relacionados a modelos e especificações. Nesta aula

Leia mais

Implantando um Programa de Melhoria de Processo: Uma Experiência Prática

Implantando um Programa de Melhoria de Processo: Uma Experiência Prática Implantando um Programa de Melhoria de Processo: Uma Experiência Prática Evandro Polese Alves Ricardo de Almeida Falbo Departamento de Informática - UFES Av. Fernando Ferrari, s/n, Vitória - ES - Brasil

Leia mais

C O B I T. Gerenciamento dos Riscos Mitigação. Aceitação. Transferência. Evitar/Eliminar.

C O B I T. Gerenciamento dos Riscos Mitigação. Aceitação. Transferência. Evitar/Eliminar. C O B I T Evolução Estratégica A) Provedor de Tecnologia Gerenciamento de Infra-estrutura de TI (ITIM) B) Provedor de Serviços Gerenciamento de Serviços de TI (ITSM) C) Parceiro Estratégico Governança

Leia mais

Relatório apresentado na reunião em Karlsruher Institut für Technologie Karlsruhe, Alemanha

Relatório apresentado na reunião em Karlsruher Institut für Technologie Karlsruhe, Alemanha Relatório apresentado na reunião em Karlsruher Institut für Technologie Karlsruhe, Alemanha Arquitetura da Informação para o Sistema Brasileiro de Inventário de Ciclo de Vida (SICV BRASIL) Everson Andrade

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

NOME DA INSTITUIÇÃO (FACULDADE, UNIVERSIDADE) NOME DO CENTRO DE ESTUDOS NOME COMPLETO DO ALUNO TITULO DO TRABALHO CIDADE

NOME DA INSTITUIÇÃO (FACULDADE, UNIVERSIDADE) NOME DO CENTRO DE ESTUDOS NOME COMPLETO DO ALUNO TITULO DO TRABALHO CIDADE NOME DA INSTITUIÇÃO (FACULDADE, UNIVERSIDADE) NOME DO CENTRO DE ESTUDOS NOME COMPLETO DO ALUNO TITULO DO TRABALHO CIDADE 00000 NOME COMPLETO DO ALUNO TITULO DO TRABALHO Titulo do Trabalho: seguido de uma

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Combinando a norma ISO 10006 e o guia PMBOK para garantir sucesso em projetos

Combinando a norma ISO 10006 e o guia PMBOK para garantir sucesso em projetos Combinando a norma ISO 10006 e o guia PMBOK para garantir sucesso em projetos Combining the ISO 10006 and PMBOK to ensure successful projects 1 Por Michael Stanleigh Tradução e adaptação para fins didáticos

Leia mais

COMO DESENVOLVER UMA PESQUISA E COMO ELABORAR UM PROJETO DE PESQUISA?

COMO DESENVOLVER UMA PESQUISA E COMO ELABORAR UM PROJETO DE PESQUISA? COMO DESENVOLVER UMA PESQUISA E COMO ELABORAR UM PROJETO DE PESQUISA? Conhecimento: Conhecimento: nada mais é que a apreensão da realidade, de forma real ou imaginada. Entendendo realidade como aquilo

Leia mais

Conceitos de Banco de Dados

Conceitos de Banco de Dados Conceitos de Banco de Dados Autor: Luiz Antonio Junior 1 INTRODUÇÃO Objetivos Introduzir conceitos básicos de Modelo de dados Introduzir conceitos básicos de Banco de dados Capacitar o aluno a construir

Leia mais

Padrões de Contagem de Pontos de Função

Padrões de Contagem de Pontos de Função Padrões de Contagem de Pontos de Função Contexto Versão: 1.0.0 Objetivo O propósito deste documento é apresentar os padrões estabelecidos para utilização da técnica de Análise de Pontos de Função no ambiente

Leia mais

1 UML (UNIFIED MODELING LANGUAGE)

1 UML (UNIFIED MODELING LANGUAGE) 1 UML (UNIFIED MODELING LANGUAGE) Segundo Tonsig (2003), para conseguir desenvolver um software capaz de satisfazer as necessidades de seus usuários, com qualidade, por intermédio de uma arquitetura sólida

Leia mais

Gerenciamento de Qualidade

Gerenciamento de Qualidade UNIVERSIDADE ESTADUAL PAULISTA INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIAS DE COMPUTAÇÃO E ESTATÍSTICA Gerenciamento de Qualidade Engenharia de Software 2o. Semestre de

Leia mais

CobiT 4.01 OBJETIVOS DE CONTROLE PARA INFORMAÇÃO E TECNOLOGIAS RELACIONADAS

CobiT 4.01 OBJETIVOS DE CONTROLE PARA INFORMAÇÃO E TECNOLOGIAS RELACIONADAS CobiT 4.01 OBJETIVOS DE CONTROLE PARA INFORMAÇÃO E TECNOLOGIAS RELACIONADAS METODOLOGIA DE AUDITORIA PARA AVALIAÇÃO DE CONTROLES E CUMPRIMENTO DE PROCESSOS DE TI NARDON, NASI AUDITORES E CONSULTORES CobiT

Leia mais

Modelagem de Requisitos com Casos de Uso. Descrever em detalhe a técnica de Modelagem com Use Cases

Modelagem de Requisitos com Casos de Uso. Descrever em detalhe a técnica de Modelagem com Use Cases Engenharia de Software Modelagem de Requisitos com Casos de Uso 1 Objetivos Descrever em detalhe a técnica de Modelagem com Use Cases 2 1 Use Case É uma forma específica de uso do sistema através da execução

Leia mais

APLICABILIDADE DA ESPECIFICAÇÃO PAS 99:2006 COMO MODELO INTEGRADO DE GESTÃO - UM ESTUDO DE CASO

APLICABILIDADE DA ESPECIFICAÇÃO PAS 99:2006 COMO MODELO INTEGRADO DE GESTÃO - UM ESTUDO DE CASO ! "#$ " %'&)(*&)+,.- /10.2*&4365879&4/1:.+58;.2*=?5.@A2*3B;.- C)D 5.,.5FE)5.G.+ &4- (IHJ&?,.+ /?=)5.KA:.+5MLN&OHJ5F&4E)2*EOHJ&)(IHJ/)G.- D - ;./);.& APLICABILIDADE DA ESPECIFICAÇÃO PAS 99:2006 COMO

Leia mais

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Rafael Rodrigo da Silva 1, Wender Magno Cota 1 1 Universidade Presidente Antônio Carlos (UNIPAC) Faculdade Regional

Leia mais

Características do Software

Características do Software Questionamentos Por que tanta demora para entregar? Por que os prazos se atrasam? Por que os custos são altos? Por que não achar todos os erros antes de entregar? Por que dificuldade em medir o progresso

Leia mais

BIBLIOTECA DE CIÊNCIAS JURÍDICAS. NORMAS PARA APRESENTAÇÃO DE DOCUMENTOS CIENTÍFICOS: TRABALHOS ACADÊMICOS Aula 1

BIBLIOTECA DE CIÊNCIAS JURÍDICAS. NORMAS PARA APRESENTAÇÃO DE DOCUMENTOS CIENTÍFICOS: TRABALHOS ACADÊMICOS Aula 1 BIBLIOTECA DE CIÊNCIAS JURÍDICAS NORMAS PARA APRESENTAÇÃO DE DOCUMENTOS CIENTÍFICOS: TRABALHOS ACADÊMICOS Aula 1 Paula Carina de Araújo paulacarina@ufpr.br 2014 Pesquisa Pesquisa Atividade básica da ciência

Leia mais

PEDRO HENRIQUE DE OLIVEIRA E SILVA MESTRE EM MODELAGEM MATEMÁTICA E COMPUTACIONAL E-MAIL: PEDROHOLI@GMAIL.COM CMM E CMMI

PEDRO HENRIQUE DE OLIVEIRA E SILVA MESTRE EM MODELAGEM MATEMÁTICA E COMPUTACIONAL E-MAIL: PEDROHOLI@GMAIL.COM CMM E CMMI PEDRO HENRIQUE DE OLIVEIRA E SILVA MESTRE EM MODELAGEM MATEMÁTICA E COMPUTACIONAL E-MAIL: PEDROHOLI@GMAIL.COM CMM E CMMI INTRODUÇÃO Aumento da Importância do Software Software está em tudo: Elemento crítico

Leia mais

Programação I. Departamento de Engenharia Rural Centro de Ciências Agrárias

Programação I. Departamento de Engenharia Rural Centro de Ciências Agrárias Departamento de Engenharia Rural Centro de Ciências Agrárias Programação I Prof. Bruno Vilela Oliveira bruno@cca.ufes.br http://www.brunovilela.webnode.com.br Programas e Linguagens Para executar uma tarefa

Leia mais

Alternativas de Integração de Dados Gerenciando Valor e Qualidade

Alternativas de Integração de Dados Gerenciando Valor e Qualidade Soluções para Possibilitar Relacionamentos Duradouros com Clientes Alternativas de Integração de Dados Gerenciando Valor e Qualidade Utilizando uma abordagem regulada para incorporar serviços de qualidade

Leia mais

PLATAFORMA URBANMOB Aplicativo para captura de trajetórias urbanas de objetos móveis

PLATAFORMA URBANMOB Aplicativo para captura de trajetórias urbanas de objetos móveis PLATAFORMA URBANMOB Aplicativo para captura de trajetórias urbanas de objetos móveis Gabriel Galvão da Gama 1 ; Reginaldo Rubens da Silva 2 ; Angelo Augusto Frozza 3 RESUMO Este artigo descreve um projeto

Leia mais

Conectando Bancos de Dados Microsoft Access no BrOffice.org Base. fornecido pelo Projeto de Documentação do BrOffice.org

Conectando Bancos de Dados Microsoft Access no BrOffice.org Base. fornecido pelo Projeto de Documentação do BrOffice.org Conectando Bancos de Dados Microsoft Access no BrOffice.org Base fornecido pelo Projeto de Documentação do BrOffice.org Índice 1 Introdução...2 1.1 Versão... 2 1.2 Licenciamento...2 1.3 Mensagem do Projeto

Leia mais

Visão computacional no reconhecimento de formas e objetos

Visão computacional no reconhecimento de formas e objetos Visão computacional no reconhecimento de formas e objetos Paula Rayane Mota Costa Pereira*, Josemar Rodrigues de Souza**, Resumo * Bolsista de Iniciação Científica da Faculdade de Tecnologia SENAI CIMATEC,

Leia mais

O PROJETO DE PESQUISA. Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza

O PROJETO DE PESQUISA. Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza O PROJETO DE PESQUISA Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza ROTEIRO Escolher um tema de pesquisa Por onde começar? Ler para aprender Estrutura do Projeto de Pesquisa A Definição

Leia mais

Gerenciamento de Serviços em TI com ITIL. Gerenciamento de Serviços de TI com ITIL

Gerenciamento de Serviços em TI com ITIL. Gerenciamento de Serviços de TI com ITIL Gerenciamento de Serviços de TI com ITIL A Filosofia do Gerenciamento de Serviços em TI Avanços tecnológicos; Negócios totalmente dependentes da TI; Qualidade, quantidade e a disponibilidade (infra-estrutura

Leia mais

Medição da qualidade da informação: um experimento na pesquisa em bases de dados científicas

Medição da qualidade da informação: um experimento na pesquisa em bases de dados científicas Medição da qualidade da informação: um experimento na pesquisa em bases de dados científicas Fábio Favaretto (PUCPR) fabio.favaretto@pucpr.br Rosana Adami Mattioda (PUCPR) mattioda@brturbo.com Resumo O

Leia mais

SIMULAÇÃO COMPUTACIONAL PARA ANÁLISE DO NÍVEL DE SERVIÇOS EM AEROPORTOS

SIMULAÇÃO COMPUTACIONAL PARA ANÁLISE DO NÍVEL DE SERVIÇOS EM AEROPORTOS Anais do 14 O Encontro de Iniciação Científica e Pós-Graduação do ITA XIV ENCITA / 2008 Instituto Tecnológico de Aeronáutica São José dos Campos SP Brasil Outubro 20 a 23 2008. SIMULAÇÃO COMPUTACIONAL

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Conceitos. - Sistema de Informação, Estruturas e Classificação. - Dados x Informações. Edson Almeida Junior www.edsonalmeidajunior.com.

Conceitos. - Sistema de Informação, Estruturas e Classificação. - Dados x Informações. Edson Almeida Junior www.edsonalmeidajunior.com. Conceitos - Sistema de Informação, Estruturas e Classificação - Dados x Informações Edson Almeida Junior www.edsonalmeidajunior.com.br Definição de Sistema Uma coleção de objetos unidos por alguma forma

Leia mais

Modelos de Sistema. 2007 by Pearson Education. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 8 Slide 1.

Modelos de Sistema. 2007 by Pearson Education. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 8 Slide 1. Modelos de Sistema Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 8 Slide 1 Objetivos Explicar por que o contexto de um sistema deve ser modelado como parte do processo de RE Descrever

Leia mais

EXPERIÊNCIA DE USO DE ARQUITETURA CORPORATIVA NO PROJETO DE RES

EXPERIÊNCIA DE USO DE ARQUITETURA CORPORATIVA NO PROJETO DE RES EXPERIÊNCIA DE USO DE ARQUITETURA CORPORATIVA NO PROJETO DE RES Rigoleta Dutra Mediano Dias 1, Lívia Aparecida de Oliveira Souza 2 1, 2 CASNAV, MARINHA DO BRASIL, MINISTÉRIO DA DEFESA, BRASIL Resumo: Este

Leia mais

Banco de Dados Multimídia

Banco de Dados Multimídia Banco de Dados Multimídia Nomes: Ariane Bazilio Cristiano de Deus Marcos Henrique Sidinei Souza Professor Mauricio Anderson Perecim Conteúdo Banco de Dados Multimídia... 3 Conceitos... 3 Descrição... 3

Leia mais

A Computação e as Classificações da Ciência

A Computação e as Classificações da Ciência A Computação e as Classificações da Ciência Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Agenda Classificações da Ciência A Computação

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Similaridade entre Objetos Localizados em Fontes de Dados Heterogêneas

Similaridade entre Objetos Localizados em Fontes de Dados Heterogêneas Similaridade entre Objetos Localizados em Fontes de Dados Heterogêneas Rubens Guimarães 1, Gustavo Zanini Kantorski 1 1 Curso de Sistemas de Informação Universidade Luterana do Brasil (ULBRA) Campus Santa

Leia mais

CAPITULO 4 A ARQUITETURA LÓGICA PARA O AMBIENTE

CAPITULO 4 A ARQUITETURA LÓGICA PARA O AMBIENTE CAPITULO 4 A ARQUITETURA LÓGICA PARA O AMBIENTE A proposta para o ambiente apresentada neste trabalho é baseada no conjunto de requisitos levantados no capítulo anterior. Este levantamento, sugere uma

Leia mais

Além da correção ortográfica nos editores de textos livres

Além da correção ortográfica nos editores de textos livres Além da correção ortográfica nos editores de textos livres William D. Colen M. Silva (colen@users.sourceforge.net) Eng. Computação pela Escola Politécnica da USP (2006) Mestrando Ciência da Computação

Leia mais

Modelagem do Conhecimento para a Gestão de Processos e Projetos. Modelagem do Conhecimento para a Gestão de Processos e Projetos Prof.

Modelagem do Conhecimento para a Gestão de Processos e Projetos. Modelagem do Conhecimento para a Gestão de Processos e Projetos Prof. Modelagem do Conhecimento para a Gestão de Processos e Projetos 1 Objetivo Apresentação de modelo conceitual para a integração e recuperação de informações, disponíveis em ambientes internos ou externos,

Leia mais

GERENCIAMENTO DE RISCOS EM PROJETOS: UMA COMPARAÇÃO ENTRE O PMBOK E A ISO-31000

GERENCIAMENTO DE RISCOS EM PROJETOS: UMA COMPARAÇÃO ENTRE O PMBOK E A ISO-31000 GERENCIAMENTO DE RISCOS EM PROJETOS: UMA COMPARAÇÃO ENTRE O E A -31000 Maildo Barros da Silva 1 e Fco.Rodrigo P. Cavalcanti 2 1 Universidade de Fortaleza (UNIFOR), Fortaleza-CE, Brasil phone: +55(85) 96193248,

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

Projeto gestão de demanda http://www.administradores.com.br/artigos/marketing/projeto-gestao-de-demanda/62517/

Projeto gestão de demanda http://www.administradores.com.br/artigos/marketing/projeto-gestao-de-demanda/62517/ Projeto gestão de demanda http://www.administradores.com.br/artigos/marketing/projeto-gestao-de-demanda/62517/ Muitas empresas se deparam com situações nas tarefas de previsões de vendas e tem como origem

Leia mais

Gestão de Pessoas CONTEÚDO PROGRAMÁTICO. 5.Mapeamento e análise de processos organizacionais. Indicadores de Desempenho.

Gestão de Pessoas CONTEÚDO PROGRAMÁTICO. 5.Mapeamento e análise de processos organizacionais. Indicadores de Desempenho. Gestão de Pessoas CONTEÚDO PROGRAMÁTICO 5.Mapeamento e análise de processos organizacionais. Indicadores de Desempenho. AULA 07 - ATPS Prof. Leonardo Ferreira 1 A Estrutura Funcional X Horizontal Visão

Leia mais

Normas para Apresentação de Monografias

Normas para Apresentação de Monografias UNIVERSIDADE FEDERAL DE CAMPINA GRANDE DEPARTAMENTO DE SISTEMAS E COMPUTAÇÃO COORDENAÇÃO DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO Normas para Apresentação de Monografias Campina Grande, dezembro 2010

Leia mais

Muitas aplicações modernas podem ser modeladas como tarefas divisíveis.

Muitas aplicações modernas podem ser modeladas como tarefas divisíveis. 1 Introdução O grande aumento de performance das redes de computadores, combinado com a proliferação de computadores de baixo custo e alto desempenho, trouxe à tona ambientes de meta-computação, ou grids[15,

Leia mais

SISTEMATIZAÇÃO PARA A IMPLANTA- ÇÃO INTEGRADA DE SISTEMAS DE PLANEJAMENTO FINO DA PRODUÇÃO

SISTEMATIZAÇÃO PARA A IMPLANTA- ÇÃO INTEGRADA DE SISTEMAS DE PLANEJAMENTO FINO DA PRODUÇÃO SISTEMATIZAÇÃO PARA A IMPLANTA- ÇÃO INTEGRADA DE SISTEMAS DE PLANEJAMENTO FINO DA PRODUÇÃO Eng. Fábio Favaretto, MSC Dep. de Eng. Mecânica da Escola de Eng. de São Carlos - USP Av. Dr. Carlos Botelho,

Leia mais

4 Conversor EDTV Raw. 4.1 Arquitetura

4 Conversor EDTV Raw. 4.1 Arquitetura 4 Conversor EDTV Raw O conversor EDTV Raw é o programa que lê um documento escrito no perfil NCL EDTV e gera um documento Raw equivalente, i.e. que define a mesma apresentação. Este capítulo, apresenta

Leia mais

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante Banco de Dados 1 Programação sucinta do curso:. Conceitos fundamentais de Banco de Dados.. Arquitetura dos Sistemas Gerenciadores de Banco de Dados (SGBD ou DBMS).. Características típicas de um SGBD..

Leia mais

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA Daniel Mandelli Martins Faculdade de Engenharia de Computação CEATEC danielmartins@puc-campinas.edu.br Juan Manuel Adán Coello

Leia mais

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD)

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) 1 CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) A necessidade dos SAD surgiu em decorrência de diversos fatores, como, por exemplo: Competição cada vez maior entre as

Leia mais

Análise e Projeto Orientados por Objetos

Análise e Projeto Orientados por Objetos Análise e Projeto Orientados por Objetos Aula 02 Análise e Projeto OO Edirlei Soares de Lima Análise A análise modela o problema e consiste das atividades necessárias para entender

Leia mais

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu Alessandro Mueller alessandro@univali.br UNIVALI Luiz Gonzaga Ferreira

Leia mais

Conceitos de Sistemas de Informação

Conceitos de Sistemas de Informação Conceitos de Sistemas de Informação Prof. Miguel Damasco AEDB 1 Objetivos da Unidade 1 Explicar por que o conhecimento dos sistemas de informação é importante para os profissionais das empresas e identificar

Leia mais

AVALIAÇÃO QUALITATIVA DE COST DRIVERS PELO MÉTODO AHP

AVALIAÇÃO QUALITATIVA DE COST DRIVERS PELO MÉTODO AHP AVALIAÇÃO QUALITATIVA DE COST DRIVERS PELO MÉTODO AHP Edson de Oliveira Pamplona, Dr. Escola Federal de Engenharia de Itajubá Av. BPS, 1303 Itajubá, MG CEP: 37500-000 e-mail: pamplona@iem.efei.br Prof.

Leia mais

Algumas propriedades dos objetos:

Algumas propriedades dos objetos: Orientação a Objetos Vivemos num mundo de objetos. Esses objetos existem na natureza, nas entidades feitas pelo homem, nos negócios e nos produtos que usamos. Eles podem ser categorizados, descritos, organizados,

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

CURSO DE SISTEMAS DE INFORMAÇÃO

CURSO DE SISTEMAS DE INFORMAÇÃO 1 CURSO DE SISTEMAS DE INFORMAÇÃO EMENTÁRIO DAS DISCIPLINAS 2011.1 BRUSQUE (SC) 2015 2 SUMÁRIO 1ª FASE... 4 01 ARQUITETURA DE COMPUTADORES... 4 02 FILOSOFIA... 4 03 FUNDAMENTOS MATEMÁTICOS PARA COMPUTAÇÃO...

Leia mais

Modelagem de Casos de Uso (Parte 2)

Modelagem de Casos de Uso (Parte 2) Modelagem de Casos de Uso (Parte 2) Roteiro (1) Método para Modelagem de Casos De Uso Estudo de Caso: Sistema de Controle para Videolocadora Levantamento Inicial dos Casos de Uso Identificação dos Casos

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Banco de Dados I Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM Dados

Leia mais

Governança de TI com COBIT, ITIL e BSC

Governança de TI com COBIT, ITIL e BSC {aula #2} Parte 1 Governança de TI com melhores práticas COBIT, ITIL e BSC www.etcnologia.com.br Rildo F Santos rildo.santos@etecnologia.com.br twitter: @rildosan (11) 9123-5358 skype: rildo.f.santos (11)

Leia mais

Modelos de processos de desenvolvimento de software

Modelos de processos de desenvolvimento de software Definição Um modelo de processo de software é uma representação abstrata de um processo. Os modelos de processo podem ser desenvolvidos a partir de várias perspectivas e podem mostrar as atividades envolvidas

Leia mais

PEER DATA MANAGEMENT SYSTEM

PEER DATA MANAGEMENT SYSTEM PEER DATA MANAGEMENT SYSTEM INTRODUÇÃO, INFRA-ESTRUTURA E MAPEAMENTO DE ESQUEMAS AGENDA Data Management System Peer Data Management System P2P Infra-estrutura Funcionamento do PDMS Mapeamento de Esquemas

Leia mais

Engenharia de Software

Engenharia de Software CENTRO UNIVERSITÁRIO NOVE DE JULHO Profº. Edson T. França edson.franca@uninove.br Software Sistemas Conjunto de elementos, entre os quais haja alguma relação Disposição das partes ou dos elementos de um

Leia mais

Arquitetura de Software: Uma Central para Gestão da execução de serviços

Arquitetura de Software: Uma Central para Gestão da execução de serviços Arquitetura de Software: Uma Central para Gestão da execução de serviços ADILSON FERREIRA DA SILVA Centro Paula Souza São Paulo Brasil afs.software@gmail.com Prof.a. Dr.a. MARILIA MACORIN DE AZEVEDO Centro

Leia mais

Gerenciamento de Projetos Modulo I Conceitos Iniciais

Gerenciamento de Projetos Modulo I Conceitos Iniciais Gerenciamento de Projetos Modulo I Conceitos Iniciais Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com Bibliografia* Project Management Institute. Conjunto de Conhecimentos em Gerenciamento

Leia mais

Gerenciamento de Rede Baseado em Políticas

Gerenciamento de Rede Baseado em Políticas Gerenciamento de Rede Baseado em Políticas (Policy-Based Networking) Ademir José de Carvalho Junior Recife, Fevereiro de 2007 Resumo: A complexidade das redes baseadas em IP atualmente segue crescendo

Leia mais

5 Framework para coordenação e mediação de Web Services para ambientes de aprendizado à distância

5 Framework para coordenação e mediação de Web Services para ambientes de aprendizado à distância 5 Framework para coordenação e mediação de Web Services para ambientes de aprendizado à distância O capítulo anterior apresentou uma discussão sobre a inclusão dos chamados learning services no processo

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Gerenciamento de Redes

Gerenciamento de Redes Gerenciamento de Redes As redes de computadores atuais são compostas por uma grande variedade de dispositivos que devem se comunicar e compartilhar recursos. Na maioria dos casos, a eficiência dos serviços

Leia mais

INSTITUTO FEDERAL DO RIO GRANDE DO NORTE CAMPUS CENTRAL NATAL DIRETORIA DE ENSINO E TECNOLOGIA EM CONSTRUÇÃO CIVIL

INSTITUTO FEDERAL DO RIO GRANDE DO NORTE CAMPUS CENTRAL NATAL DIRETORIA DE ENSINO E TECNOLOGIA EM CONSTRUÇÃO CIVIL INSTITUTO FEDERAL DO RIO GRANDE DO NORTE CAMPUS CENTRAL NATAL DIRETORIA DE ENSINO E TECNOLOGIA EM CONSTRUÇÃO CIVIL NORMAS PARA ELABORAÇÃO DE UM RELATÓRIO TÉCNICO Eurípedes de Medeiros Junior 1 Mara Matos

Leia mais

ARQUITETURA TRADICIONAL

ARQUITETURA TRADICIONAL INTRODUÇÃO Atualmente no universo corporativo, a necessidade constante de gestores de tomar decisões cruciais para os bons negócios das empresas, faz da informação seu bem mais precioso. Nos dias de hoje,

Leia mais

Por que o gerenciamento de ativos de software é tão difícil e como simplificá-lo

Por que o gerenciamento de ativos de software é tão difícil e como simplificá-lo DOCUMENTAÇÃO TÉCNICA Melhores práticas de gerenciamento de ativos de software JUNHO DE 2013 Por que o gerenciamento de ativos de software é tão difícil e como simplificá-lo John Fulton CA IT Business Management

Leia mais

ESPECIFICAÇÃO DO AMBIENTE EXPSEE SEGUNDO O MÉTODO CATALYSIS

ESPECIFICAÇÃO DO AMBIENTE EXPSEE SEGUNDO O MÉTODO CATALYSIS ESPECIFICAÇÃO DO AMBIENTE EXPSEE SEGUNDO O MÉTODO CATALYSIS RESUMO Este artigo apresenta a especificação de um sistema gerenciador de workflow, o ExPSEE, de acordo com a abordagem de desenvolvimento baseado

Leia mais

LEVANTAMENTO DE REQUISITOS SEGUNDO O MÉTODO VOLERE

LEVANTAMENTO DE REQUISITOS SEGUNDO O MÉTODO VOLERE LEVANTAMENTO DE REQUISITOS SEGUNDO O MÉTODO VOLERE RESUMO Fazer um bom levantamento e especificação de requisitos é algo primordial para quem trabalha com desenvolvimento de sistemas. Esse levantamento

Leia mais

Conceitos Básicos e Implementação. Entrega de Serviços. Professor Gledson Pompeu (gledson.pompeu@gmail.com)

Conceitos Básicos e Implementação. Entrega de Serviços. Professor Gledson Pompeu (gledson.pompeu@gmail.com) Conceitos Básicos e Implementação Pref. Mun. Vitória 2007 Analista de Suporte 120 A ITIL (information technology infrastructure library) visa documentar as melhores práticas na gerência, no suporte e na

Leia mais

Técnicas de Business Intelligence na Análise de Dados de Produção. Rafael Deitos

Técnicas de Business Intelligence na Análise de Dados de Produção. Rafael Deitos Copyright 2014-15 OSIsoft, LLC. 1 Técnicas de Business Intelligence na Análise de Dados de Produção Presented by Felipe Trevisan Rafael Deitos Copyright 2014-15 OSIsoft, LLC. Sumário Contextualização Itaipu

Leia mais

ALGUMAS CONSIDERAÇÕES SOBRE SISTEMAS DE INFORMAÇÃO E DIAGRAMA DE FLUXO DE DADOS

ALGUMAS CONSIDERAÇÕES SOBRE SISTEMAS DE INFORMAÇÃO E DIAGRAMA DE FLUXO DE DADOS ALGUMAS CONSIDERAÇÕES SOBRE SISTEMAS DE INFORMAÇÃO E DIAGRAMA DE FLUXO DE DADOS Maria Vitória Marim Ferraz Pinto da SILVA Eng., Mestranda pela Universidade Federal de São Carlos. Rodovia Washington Luiz,

Leia mais

5 ESTRUTURA E APRESENTAÇÃO DE MONOGRAFIAS OU TRABALHO DE CONCLUSÃO DE CURSO (TCC)... 478 5.1 Ordenamento dos elementos da monografia ou TCC... 48 5.

5 ESTRUTURA E APRESENTAÇÃO DE MONOGRAFIAS OU TRABALHO DE CONCLUSÃO DE CURSO (TCC)... 478 5.1 Ordenamento dos elementos da monografia ou TCC... 48 5. 5 ESTRUTURA E APRESENTAÇÃO DE MONOGRAFIAS OU TRABALHO DE CONCLUSÃO DE CURSO (TCC)... 478 5.1 Ordenamento dos elementos da monografia ou TCC... 48 5.2 Capa... 48 5.3 Folha de rosto... 51 5.4 Errata... 53

Leia mais

Extração Automática de Palavras-chave de Textos da Língua Portuguesa

Extração Automática de Palavras-chave de Textos da Língua Portuguesa Extração Automática de Palavras-chave de Textos da Língua Portuguesa Maria Abadia Lacerda Dias, Marcelo de Gomensoro Malheiros Centro Universitário UNIVATES Lajeado RS Brasil {mald,mgm}@univates.br Abstract.

Leia mais

PROPOSTA DE SOFTWARE DE INSTALAÇÃO PARA UM AMBIENTE INTEGRADO DE GERÊNCIA DE PROJETOS E DE PROCESSOS DE NEGÓCIOS

PROPOSTA DE SOFTWARE DE INSTALAÇÃO PARA UM AMBIENTE INTEGRADO DE GERÊNCIA DE PROJETOS E DE PROCESSOS DE NEGÓCIOS PROPOSTA DE SOFTWARE DE INSTALAÇÃO PARA UM AMBIENTE INTEGRADO DE GERÊNCIA DE PROJETOS E DE PROCESSOS DE NEGÓCIOS Élysson Mendes Rezende Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica

Leia mais