WEB SEMÂNTICA:NOVAS APLICAÇÕES DE INTELIGENCIA ARTIFICIAL EM PAGINAS HTML

WEB SEMÂNTICA:NOVAS APLICAÇÕES DE INTELIGENCIA ARTIFICIAL EM PAGINAS HTML Thiago Aguiar Lopes (IC) e Ismar Frango Silveira (Orientador) Apoio: PIBIC Mackenzie/MackPesquisa Resumo O futuro da Web se constroem em meio a páginas ricas em conteúdo que obedecem universalmente a padrões, bem diferente da Web que víamos antigamente, aquela em que a informação era toda desorganizada e difícil de entender e tudo isso graças à Web Semântica.A Web Semântica foi um projeto criado por Tim Berners-Lee o criador do HTML e da World Wide Web, onde o objetivo desse projeto é melhorar a Web através de padrões e ferramentas que tornem seu conteúdo claro e de fácil manutenção.as páginas construídas dentro da Web Semântica passam a poder ser lidas tanto por humanos ou por máquinas, e também tanto podem ser apresentadas graficamente, como podem ser lidas por leitores de tela, e também por dispositivos móveis. Se as máquinas fossem capazes de entenderem as páginas, ficaria bem mais fácil desenvolver programas que conforme as nossas solicitações, poderiam marcar hora com o médico, encontrar e fazer reservas em hotéis de nossa preferência. Toda essa base semântica só é obtida por meio de conceitos e técnicas de Inteligência Artificial, sendo que as principais delas são as ontologias e as redes semânticas que juntas geram a base logica de toda a semântica por trás das informações web. Em suma, Web Semântica não se trata de uma nova rede de informações, mas sim de um projeto para aplicar conceitos inteligentes na internet atual. Nela cada informação vem com um significado bem definido e não se encontra mais solta no mar de conteúdo, permitindo uma melhor interação com o usuário. Palavras-chave: Web semantica, inteligência artificial, padrões Web Abstract The future of the web are built in the midst of content-rich pages that follow universal standards, quite different from the Web that we saw before, one in which the information was all messy and difficult to understand, all thanks to the Semantic Web.A a project created by Tim Berners-Lee the creator of HTML and the World Wide Web, where the goal of this project is to improve the Web by standards and tools that make your content clear and easy maintenance.as pages built into the Semantic Web are it can be read both by humans or by machines, and both can also be displayed graphically, as can be read by screen readers, and also for mobile devices. If the machines were able to understand the pages, would be much easier to develop programs that according to our requests, they could make an appointment with the doctor, find and make reservations at hotels of our choice. All this based semantics is obtained only by means of concepts and techniques of Artificial Intelligence, and the principal ones are the ontologies and the semantic networks that together generate the basic "logic" of all the semantics behind the information web. In short, the Semantic Web is not about a new network of information, but a plan to introduce intelligent concepts on the Internet today. It comes with every piece of information a well-defined meaning and is no longer released into the sea of content, allowing a better interaction with the user. Key-words: Web semantic, ontologies, Web standards 1

VII Jornada de Iniciação Científica - 2011 1.INTRODUÇÃO O futuro da Web se constrói em meio a páginas ricas em conteúdo que obedecem universalmente a padrões, bem diferente da Web que víamos antigamente, aquela em que a informação era toda desorganizada e difícil de entender, mas o que a Web Semântica tem haver com isso? A Web Semântica foi um projeto criado por Tim Berners-Lee, nada mais nada menos que o criador do HTML e da World Wide Web, onde o objetivo desse projeto é melhorar a Web através de padrões e ferramentas que tornem seu conteúdo claro e de fácil manutenção. As páginas construídas dentro da Web Semântica passam a poder ser lidas tanto por humanos ou por máquinas, e também tanto podem ser apresentadas graficamente, como podem ser lidas por leitores de tela, e também por dispositivos móveis, como celulares. Por exemplo, se as máquinas fossem capazes de entenderem as páginas, ficaria bem mais fácil desenvolver programas que conforme as nossas solicitações, poderiam marcar hora com o médico, encontrar e fazer reservas em hotéis de nossa preferência. Esses programas seriam os user-agentes. As linguagens hoje que se adequam a esses padrões são as versões mais recentes do HTML, todas as versões do XHTML, as CSS e também o XML. Na web Semântica, toda a formatação deve estar separada do código HTML, por isso existem elementos claros que definem cabeçalhos, parágrafos e listas. Usadas dessa forma, as estruturas das páginas ficam fáceis de compreender. Exemplo: É compreensível ao ser humano entender esse texto, porém são apenas dados brutos para a maquina: Mackenzie,R.Consolação 930,Consolação. São Paulo Sp 0130902-907 E o mesmo exemplo se utilizado a estruturação original do XML, pode ser melhor interpretado pela maquina: <localização> <instituição>mackenzie</instituição> <endereço> <rua>r.consolação,930</rua> <bairro>consolação</bairro> <cidade>são Paulo</cidade> 2

<estado>sp</estado> <cep>01302-970</cep> </localização> Esse exemplo deixa claro que a estruturação é um fator de extrema importância e dessa forma é vital para o bom funcionamento da internet. Se imaginarmos um numero pequeno de cartas que um carteiro deva entregar por dia, esse problema não é algo tão alarmante. Porém, se o carteiro tivesse de entregar 2.5 milhões de cartas por dia, essa bagunça de informações geraria confusões e provavelmente atrasaria a entrega dessas cartas. Esse problema é comumente encontrado na internet devido as temidas mensagens error 404- HTTP not Found ou pelo simples fato de ma pagina HTML possuir menos de 50k de tamanho em sua generalidade mesmo assim, bandas de internet com 4mb levarem mais de 3 segundos para abrirem uma pagina HTML. A Web Semântica é nada mais nada menos, que uma web com toda sua informação organizada de forma que não somente seres humanos possam entendê-la, mas principalmente máquinas. A Web Semântica incorpora significado às informações da web. Isso proporciona um ambiente onde máquinas e usuários trabalhem em conjunto. Tendo cada tipo de informação devidamente identificada, fica fácil para os sistemas encontrarem informações mais precisas sobre um determinado assunto. O ambiente de que estamos falando terá informações devidamente identificáveis, onde sistemas personalizados possam manipular compartilhar e reutilizar de forma prática as informações providas pela Web. 1.1 Inteligência Artificial Inteligência Artificial é hoje um domínio do conhecimento cada vez mais na moda. Dela fala-se, escreve-se, ouve-se falar, lê-se. Mas saberemos nós o que é na verdade esta ciência, o que estuda, que aplicações práticas tem? A verdade é que muitas vezes os nossos conhecimentos sobre Inteligência Artificial (I.A.) não vão além do isso tem qualquer coisa a ver com computadores, não é? A Inteligência Artificial é por um lado uma ciência, que procura estudar e compreender o fenómeno da inteligência, e por outro um ramo da engenharia, na medida em que procura construir instrumentos para apoiar a inteligência humana. A I.A. é inteligência como computação, tenta simular o pensamento dos peritos e os nossos fenômenos cognitivos. No entanto, a I.A. continua a ser a procura do modo como os seres humanos pensam, com o objetivo de modelizar esse pensamento em processos computacionais, tentando assim construir um corpo de explicações algorítmicas dos processos mentais humanos. É isto o 3

VII Jornada de Iniciação Científica - 2011 que distingue a I.A. dos outros campos de saber, ela coloca a ênfase na elaboração de teorias e modelos da Inteligência como programas de computador. Os estudos em I.A. actualmente dividem-se em quatro ramos fundamentais. Distingamos assim uma área ligada ao estudo das redes neuronais e ao conexionismo que se relaciona também com a capacidade dos computadores aprenderem e reconhecerem padrões. Um outro ramo ligado à biologia molecular na tentativa de construir vida artificial. Um terceiro relacionado com a robótica, ligada à biologia e procurando construir máquinas que alojem vida artificial. E finalmente o ramo clássico da I.A. que se liga desde o início à Psicologia, desde os anos 70 à epistemologia e desde os anos 80 à sociologia, e que tenta representar na máquina os mecanismos de raciocínio e de procura. Mas onde está a I.A.? Certamente dentro dos agentes que são capazes de representar as situações que enfrentam e de realizar acções possuindo processos para manipular essas representações. Mas estará ela no algoritmo, ou pelo contrário na arquitectura de estados mentais? Com a evolução computacional a inteligência artificial ganhou mais força, tendo em vista que o seu desenvolvimento possibilitou um grande avanço na análise computacional, podendo a máquina chegar a fazer análise e síntese da voz humana. No início os estudos sobre A.I. buscavam apenas uma forma de reproduzir a capacidade humana de pensar, mas assim como todas as pesquisas que evoluem, com essa não foi diferente. Percebendo que esse ramo da ciência tinha muito mais a ser descoberto, os pesquisadores e cientistas abraçaram a idéia de fazer com que uma máquina pudesse reproduzir não só a capacidade de um ser humano pensar como também a capacidade de sentir, de ter criatividade, e de ter auto-aperfeiçoamento e uso da linguagem. Filmes como O Homem bicentenário e A.I. (Inteligência Artificial) mostram claramente a vontade da máquina de se tornar ser humano, de querer se manifestar, poder ter e sentir tudo o que os humanos têm e sentem. O progresso na principal área dessa pesquisa, que é a de fazer uma inteligência similar à do ser humano, é lento. Porém, os estudos nessa área têm surtido efeito em várias outras áreas, como o planejamento automatizado e escalonamento, jogos, programas de diagnóstico médico, controle autônomo, robótica e outras mais. A inteligência artificial sistematiza e automatiza tarefas intelectuais e portanto é potencialmente relevante em qualquer área de que necessite atividade intelectual humano, seja ela complexa ou abstrata. Em termos computacionais, podemos dizer que a IA precisara ter as seguintes capacidades: Processo de linguagem natural-para permitir sua comunicação com sucesso em um idioma universal e natural. 4

Representação de conhecimento- para se armazenar e estruturar o que se sabe e entende. Raciocínio automatizado- Para utilizar as informações armazenadas, responder a perguntas e concluir a respeito de determinados assuntos. Aprendizado de maquina- Para se adaptar e detectar a novas situações e padrões. Em 1987,Nilson & Genesereth afirmaram que IA é o estudo do comportamento inteligente. Seu objetivo final é uma teoria da inteligência que explique o comportamento das entidades inteligentes naturais e que guie a criação de entidades capazes de comportamento inteligente. 1.1Figura de generalização das entradas e saídas de um neurônio lógico. 1.1.1 Ontologias Em Ciência da Computação e Ciência da Informação, uma ontologia é um modelo de dados que representa um conjunto de conceitos dentro de um domínio e os relacionamentos entre estes. Uma ontologia é utilizada para realizar inferência sobre os objetos do domínio. 5

VII Jornada de Iniciação Científica - 2011 Ontologias são utilizadas em inteligência artificial, web semântica, engenharia de software e arquitetura da informação, como uma forma de representação de conhecimento sobre o mundo ou alguma parte deste. Ontologias geralmente descrevem: Indivíduos: os objetos básicos; Classes: conjuntos, coleções ou tipos de objetos [1] ; Atributos: propriedades, características ou parâmetros que os objetos podem ter e compartilhar; Relacionamentos: as formas como os objetos podem se relacionar com outros objetos. As ontologias funcionam de maneira muito parecida com o nosso cérebro, relacionando identidades similares e agrupando-as em classes diferentes. Um telefone por exemplo se enquadra em diversos grupos: telefones, aparelhos eletrônicos, instrumentos de comunicação e assim por diante. Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no diaa-dia, como cruzar informações de sistemas diferentes e buscar informações sem que seja solicitado, através de um tipo de poder de compreensão (limitado, claro). A linguagem que o W3C recomenda para criação de ontologias é a OWL, baseada no XML. De qualquer maneira, o uso de ontologias ainda é muito raro e quase que exclusivamente acadêmico, e não existem muitas ferramentas públicas que conseguem processar o conteúdo dessas ontologias. A falta de mecanismos capazes de captar a semântica do conteúdo das páginas da Web criou uma forte demanda de serviços que se ajusta adequadamente à classe de serviços estudada em Inteligência Artificial, que passou a ser vista como uma alternativa bastante factível para um melhor tratamento dos problemas relacionados à manipulação de informação na Internet. Basicamente, dois tipos de solução foram propostos, que não são mutuamente exclusivas: Dotar os sistemas de inteligência e autonomia para percorrer e selecionar informação relevante na imensidão da rede, deduzindo ou aprendendo uais as informações úteis. Esta metáfora contribuiu para cunhar termos como agentes inteligentes, agentes de informação e manipulação cooperativa de informação [Oates et al 94]. Dotar a própria Internet de inteligência, fazendo com que as páginas possuam uma semântica clara e definida. e que agentes possam raciocinar sobre esta semântica. Essa idéia deu origem ao que chamamos de Web Semântica. 6

Com efeito, as ontologias especificam os conceitos de um determinado domínio e suas relações, restrições e axiomas, definidos de forma declarativa e representam um papel fundamental em ambas as soluções. No primeiro caso, as ontologias servem como ferramenta para organização, reuso e disseminação de conhecimento já especificado, facilitando a construção de novos agentes. Porém, para este tipo de solução, as ontologias desempenham um papel ainda mais importante, que motivou a retomada de pesquisas sobre o tema: servir como vocabulário de comunicação entre agentes inteligentes. No segundo caso, linguagens estão sendo desenvolvidas envolvidas para permitir que páginas sejam anotadas usando formalismos lógicos, que, por sua vez, possam definir ou instanciar ontologias. Em suma, as ontologias, são dotadas de diversas frentes, ou seja, sua usabilidade pode gerar infinitos ganhos e diversas interpretações que podem ser muito interessantes no processo de Semantização de informação. Fig. 1.2 Exemplo de uma ontologia de rede semântica. 7

VII Jornada de Iniciação Científica - 2011 2.REFERENCIAL TEÓRICO: A web semântica teve seu verdadeiro marco em 2001 com a publicação do artigo, de Tim Berners Lee, James Handler e Ora Lassila, The Semantic Web, a new form of web content that is meaningful to computers will unleash a revolution of new possibilities(web semantica:um novo formato de conteúdo para Web que tem significado para computadores vai iniciar uma revolução de novas possibilidades).nele foram apresentados dois cenários distintos em que ambos consistiam em problemas cotidianos e com soluções que envolviam sistemas inteligentes e semânticos para realizarem a análise e as possíveis ações de cada sistema.no artigo, escrito os autoders também fizeram uma analogia do efeito desses sistemas inteligentes para o mapeamento e semantização dos dados da internet, onde o principal dos problemas era a falta de padronização dos dados ao longo da rede, uma vez que cada pagina web é feita de uma maneira pessoal do desenvolvedor e com ferramentas distintas, além da falta de padrões da própria web onde o trafego pode utilizar diversas formas de conexão e comunicação, exemplos http, Udp, smtp, etc... Sendo assim Breitman (2005) descreve a web semântica como um conceito de documentos compreensíveis por maquina não implica em uma inteligência magica que faz com que os computadores passem a entender o que os seres humanos falam. Esse conceito apenas implica que computadores passarão a ter a habilidade de resolver problemas bem definidos através do processamento de operações que se utilizam de dados. Em vez de pedirmos aos computadores que façam um esforço extra para entender as linguagens das pessoas, pedimos que as pessoas façam um esforço extra (codificando a informação com representações passiveis de processamento automático, ontologias, por exemplo). Tomando por base o que Breitman escreveu, uma das boas práticas para representações passiveis de informações são os Metadados em que ALMEIDA(1998) escreveu: São dados que descrevem completamente os dados (bases) que representam, permitindo ao usuário decidir sobre a utilização desses dados da melhor forma possível e também são dados que permitem informar as pessoas sobre a existência de um conjunto de dados ligados às suas necessidades específicas. Outras representações logicas da informação envolvem outras técnicas de Inteligência artificial onde: IA é o estudo de como fazer os computadores realizarem coisas que, no momento, as pessoas fazem melhor. (Rich, E. e Knight, K. 1994). Dentre as sub áreas de IA existentes, o foco dessa pesquisa foi em ontologias. 8

Sendo que apalavra ontologia tem sido usada em muitos discursos, nas mais diversas áreas. Entretanto, o termo ontologia veio da Filosofia. De um ponto de vista filosófico, Ontologia com O maiúsculo é o ramo da Filosofia que lida com a natureza e a organização da realidade. Devido ao seu uso diversificado, seu significado tende a ser muito vago. Dessa forma, existem muitas definições para o termo. Segundo Russel & Norvig (1995, p. 222) a palavra ontologia significa uma teoria particular, expressa por meio de um vocabulário, da natureza do ser e do existir. Os autores consideram uma ontologia apenas como um vocabulário, ou seja, uma lista informal dos conceitos em um domínio. Já os axiomas são considerados apenas na formalização.( Breitman 2005). Outra abordagem usada para testes ao longo da pesquisa foram os THESAUROS, onde Tesauro ou Thesauro, também conhecido como dicionário de idéias afins, é uma lista de palavras com significados semelhantes, dentro de um domínio específico de conhecimento. Por definição, um tesauro é restrito. Não deve ser encarado simplesmente como uma lista de sinônimos, pois o objetivo do tesauro é justamente mostrar as diferenças mínimas entre as palavras e ajudar o escritor a escolher a palavra exata. Tesauros não incluem definições, pelo menos muito detalhadas, acerca de vocábulos, uma vez que essa tarefa é da competência de dicionários. Os Thesaurus foram de grande ajuda por servirem de base estrutural para possíveis ontologias de domínio restrito como ontologias geográficas e de domínio privado ou limitado uma vez que esses domínios não apresentavam uma rede de idéias infinita e distinta como é o caso de algumas ontologias. E um dos pontos fortes desse dicionário de ideias é a sua facilidade de relacionamentos semânticos geradas entre os dados em questão. E por fim, toda a referência técnica das linguagens utilizadas ao longo da pesquisa, isto é, todas as ferramentas WEB(Html, Xml, Rdf, Rdfs Schema, XmlSchema, Dhtml, Xhtml, Don, OWL) que foram usadas para o desenvolvimento dos testes podem ser encontradas nos links da W3C(http://www.w3.org/).Para a API Jena, sua fonte de padrões e boas praticas foi utilizado o site- http://jena.sourceforge.net/ e para a pi Javax.xml utilizar a documentação de http://doc.java.sun.com/.para o aplicativo Protegé, usado para a criação de ontologias, você pode encontra-lo nesse endereço: http://protege.stanford.edu/. 3.MÉTODO O projeto desenvolvido ao longo do período de 1 ano de pesquisa foi subdividido em 4 partes distintas que tinham por objetivo estudar cada sub área da Web semântica e analisar separadamente cada caso, seus problemas e possíveis soluções para estes problemas. A 9

VII Jornada de Iniciação Científica - 2011 subdivisão foi feita com base na arquitetura e modelo semântico de dados proposto por Tim Berners Lee, figura abaixo: Figura 2:Diagrama da estruturação da arquitetura da Web Semântica. Sendo assim, foram subdivididas as partes do projeto em Estruturação Semântica, Detecção de dados HTML, Estruturação Ontológica e Implementação. Serão descritas a seguir com mais detalhes as etapas acima mencionadas. 3.1 Estruturação Semântica O início do projeto possuiu seu foco no estudo detalhado das camadas mais baixas de Tim Berners Lee, ou seja foi analisado cada uma das linguagens de significado para a web(xml,rdf,rdfschema E XMLSCHEMA). No caso do XMl a pesquisa foi feita em paralelo com o RDF uma vez que o RDF possuí tags semanticamente preparadas ao conteúdo de paginas HTML. Assim, cada uma dessas tags foi estruturada junto a documentos XML que poderiam vir a trazer uma explicação mais semântica à base de dados e até uma relevância maior ao próprio conteúdo de paginas HTMl. Já o XMLSCHEMA e o RDFSCHEMA surgiram como uma forma de redundância semântica ao longo do estudo, isto é, cada uma dessas linguagens foi feita para suprir a defasagem de capacidade semântica das linguagens originais(xmlschema E RDF SCHEMA) sendo assim apresentaram pouca utilidade do ponto de vista de solução de problemas e foram pouco utilizadas no estudo central dessas linguagens. Tendo como base que o RDF é uma linguagem de representação da informação WEB, essa parte da pesquisa se focou no estudo de nós hierárquicos entre RDF e XMl( grafos de 10

XML/RDF) uma vez que ambos se mostraram extremamente eficazes para a complementação das falhas e pontos fracos de cada uma delas. Assim esses grafos de XMl RDF possuem uma versatilidade incrível pois qualquer informação técnica, mesmo que extremamente específica como urls de sites e protocolos de conexão podem não só serem descritos com o seu conteúdo semântico(do que fala e como está organizado os dados) também pode ser interpretado pelos nós de XML entre as tags RDF. Figura 3:Grafo XML/RDF A figura acima mostra o grafo XML/RDF onde pode-se notar como ambas as linguagens parecem completar-se em um equilíbrio semântico muito interessante à proposta geral da WEB SEMANTICA. 3.2 Detecção de dados HTML Como o foco dessa pesquisa foi a WEB semântica aplicada a páginas HTML, nesse ponto da pesquisa foi-se estudado a linguagem HTML e todo o seu potencial semântico, isto é, até que ponto é possível se abstrair informações semânticas de qualidade e efetivas à processamentos informativos. Sendo assim o estudo focou-se, entre outras coisas, em tornar o mais semântico possível o HTML, sendo que essa transformação envolveu tanto uma aplicação de boas praticas de desenvolvimento em HTML como um estudo detalhado das principais TAGS HTML (a, href, h1...h6, abbr, acronym,addres, dl, dd, dt, ul, ol, li, p, table e class.)sendo que cada tag apresentava suas próprias particularidades e potencialidades semânticas distintas. O objetivo aqui não foi apenas observar a tag, foi também verificar como poderia ser feita uma junção com o modelo de grafos XML/RDF realizado na primeira parte da pesquisa. Outra fonte de estudo foram as aplicações e formações de Metadados aliadas às tags, uma vez que o objetivo dos Metadados é gerar i9nformações relevantes sobre outras informações não tão relevantes, ou seja, no caso do HTML foi testado inúmeras versões de 11

VII Jornada de Iniciação Científica - 2011 Vcards(Virtual cards) que identificavam blocos de código similares e com mesmo sentido dentro das webpages e através deles se identificavam fontes de dados confiáveis. Os microformatos de Vcards possuem o objetivo de identificar um conjunto de tags com propósitos semelhantes e marca-los como um cartão de visitas de forma a estruturas blocos de tags que fazem a mesma coisa, ou seja através dos Vcards e de seus microformatos seria possível dar um cara mais amigável a qualquer interpretação feita em códigos HTMl. Exemplo de um micro formato de Vcards capaz de estruturar um bloco de tags no HTML 5: <div class="vcard"> thiago kaminogoya <img src="/documents/minhas imagens/thiago.png" class="photo" alt="thiago Lopes" width="50" height="50" /> <ul> <li><a class="url" href="http://2xup.org/" title="2xup">http://2xup.org/</a></li> <li><a class="email" href="thiagoalopes@gmail.com" title="mail to Thiago Lopes">thiagoalopes@gmail.com</a></li> <li class="adr">brazil, brazil</li> </ul> </div> Além disso também foi avaliada a capacidade da linguagem de interação com outras linguagens para WEB, ou seja, ate que ponto o HTML poderia ser mais que uma linguagem de marcação e talvez pudesse representar o elo de ligação entre um XML e uma servlet JSP, por exemplo. Assim, cada tag HTMl foi submetida a um processamento simples de código JAVA e avaliada junto ao resultado semântico apresentado e o ideal para a situação, ou seja, em uma heurística de resultados quais deles foram satisfatórios com o objetivo da pesquisa e quais foram os principais problemas encontrados. 12

3.3 Estruturação Ontológica Dentre os aspectos importantes da Web Semântica, um de seus pilares, sem dúvida, são as ontologias uma vez que elas apresentam um potencial de relacionamento de dados extremamente eficaz para a semantização de informações aparentemente dispersas. Assim foi realizado um estudo intensivo de todas as partes que constituem uma ontologia, isto é, classes, entidades, indivíduos e relacionamentos, onde cada uma dessas partes foi analisada quais eram seus pontos fortes e fracos e onde cada uma delas entraria na semântica das informações. Com isso em mente foi proposto a criação de um domínio de estudo uma fez que um domínio genérico apresentou problemas de nexo de ideias com outras ontologias. O real problema de se usar um domínio genérico foi o fato de que as informações se comportam de forma diferente e pouco padronizadas dentro de domínios distintos, por exemplo, a forma como se aplica um paradigma orientado a objetos é completamente diferente de um paradigma como uma programação estruturada. Para finalizar essa fase de ontologias, foi proposto o domínio de objetos geográficos como padrão para seguir a pesquisa com estudos referentes à estruturação da informação dentre um domínio padronizado e coerente e que fosse aplicável aos resultados das etapas 1 e 2 do projeto. Por fim foi montado, através do aplicativo de framework Protegé, uma ontologia, escrita em OWL, que se aplicaria em um domínio geográfico de buscas semânticas em paginas WEB. 3.4 Implementação A última parte do projeto culminou no desenvolvimento de um aplicativo capaz de interpretar o conteúdo de paginas HTML e através de técnicas de semantização de informação fosse capaz de realizar um processamento em nível de máquina similar ao processamento realizado por seres humanos ao realizarem uma busca no Google. De início um problema intrigante foi as diversas ferramentas envolvidas no desenvolvimento do softwares que deveriam ser levadas em consideração uma vez que a intercomunicação dos arquivos dessas linguagens seria de total importância ao desenvolvimento do software final. Sabendo disso foi utilizada a API Jena para a aplicação utilizar a ontologia feita na etapa 3 e poder ser interpretada ao longo do processamento. Além dessa API também foi usada a java.xml para executar a leitura do XMl partir dessas duas APIs foram feitos todos os testes com as paginas HTML propostos no início do projeto. 13

VII Jornada de Iniciação Científica - 2011 Para finalizar a última parte do projeto foi proposto uma migração para a linguagem c# para a criação de um plug-in para o google Crome.Porém, devido à falta de APIs referentes a ontologias e estruturação semântica de dados essa pratica foi abandonada. 4.RESULTADOS E DISCUSSÃO Logo de início o estudo do XML se mostrou intrigante uma vez que cada cada tag no XMl é determinado pelo desenvolvedor e como não havia nenhuma especificação formal ou padrão para a semântica de sites HTMl, de inicio se tornou caga a pesquisa em questão, porém quando o estudo caminhou para as tags do RDF, já houve um esclarecimento no caminho a ser seguido e seus possíveis pontos de foco para estudo. O RDF mostrou uma linguagem técnica de difícil domínio porém de extrema versatilidade para a criação de informações descritivas e relevantes ao processamento de máquina. A partir disso o estudo se intensificou no RDF a ponto de se chegar em momentos em que as fraquezas da linguagem foram todas dispostas no campo de estudo. Assim, o principal problema encontrado no RDF é a vaga capacidade de auto explicação das tags e das que existem nenhuma é capaz de ser autossuficiente do ponto de vista semântico onde cada tag é capaz de determinar a descrição de informações mas não o modo nem a maneira de como será descrita. Então o que se obteve do RDF foi um grande dicionário cujas terminologias não demonstravam nenhuma capacidade explicativa a nenhum browser ou desenvolvedor leigo que necessitasse de um desenvolvimento mais dinâmico ou menos estruturado. Por isso, o surgimento de outras linguagens como o RDFSCHEMA e o próprio XMLSCHEMA representaram uma possível luz no fim do túnel mas na verdade elas so indicaram mesmo uma redundância da capacidade autoexplicativa de cada linguagem, ou seja, cada Schema, na pratica só consegue explicar com mais detalhes o que já havia sido descrito nas tags das linguagens primitivas(xml e RDF).Por isso a melhor maneira de se resolver o impasse foi a adoção dos grafos RDF/XML em que os estudiosos do W3C encontraram uma maneira de usar a versatilidade do XML para completar os buracos(gaps) semânticos que o RDF possuía e vice e versa. Já o HTML, mesmo em sua ultima versão 5.0, foi realmente reconhecido como uma linguagem extremamente limitada a marcação e muito de difícil de semitização pois cada tag necessitaria de pelo menos mais duas ou três linhas de códigos o que resultariam em arquivos gigantescos que não trariam tanta semântica ao conteúdo da pagina em si. Uma possível solução proposta foi a utilização de Vcards que agrupariam as tags com mesma funcionalidade em blocos capazes de certa interpretação, porém esse agrupamento só 14

conseguido por meio das divs e classes pré-determinadas que resultam em um bloco estático e incapaz de adaptações constantes e inevitáveis, dada a velocidade de como se alteram as tecnologias e a necessidade de atualizações constantes nos conteúdos das paginas HTML. Outro problema no uso das Vcards foi a incapacidade do bloco ser semântico pois os Vcards só agrupam tags de mesma funcionalidade o que impede qualquer semantização de tag individuais. Por parte das ontologias, um curioso caso foi o estudo de Tesauros que propiciou uma forma diferente de paradigma para a abordagem da informação. Normalmente as ontologias agregam relacionamentos de indivíduos um a um e com valores semânticos parecidos o que resulta em indivíduos distintos porem com mesma semântica. Mas um problemas das ontologias é justamente a distinção dos indivíduos onde cada elemento de classe é relacionado a outro elemento sem nenhuma particularidade semelhante. Ja os Thesaurus proporcionam uma agregação que complementa esse gap que uma ontologia pode ter. Em particular foi usado uma ontologia referente a estruturas geográficas(cidade, estado, países, etc.) cujo domínio é muito interessante ao estudo semântico devido à capacidade de relacionamentos diretos e de fácil compreensão. Ao termino da pesquisa, com o uso de linguagem Java e através da API Jena e Javax.xml, o software desenvolvido foi capaz de interpretar uma página HTML com relativo sucesso onde o domínio foi bem definido e a estrutura de arquivos HTML, XML e RDF foi capaz de trazer uma interpretação mais formal dos dados. Porém o software se limitou somente ao escopo dado pela ontologia, uma vez que as classes e padrões aplicados ao software pela Jena e ao próprio XMl que possui suas tags voltadas ao domínio geográfico e portanto o software não apresenta uma funcionalidade genérica a qualquer tipo de WEB site e WEB pages. 5.CONCLUSÃO Com os resultados obtidos de dada etapa do projeto de pesquisa concluiu-se que o Conceito de WEB semântica, ainda que inovador e muito bem estruturado em diversas camadas cujas pretensões sejam a semantização do conteúdo Web, representa apenas uma ideia utópica e de longa prospecção científica onde cada uma das etapas demonstrou pelo seus resultados que o que foi proposto ainda é possível de ser atingido, porem ao custo de um desenvolvimento de arquivos em diferentes linguagens e com conteúdos que formam uma rede complexa de dados. No caso das empresas que possuem a urgência de negócios, o desenvolvimento qualitativo e estruturado de seus webservices e paginas WEB sempre ficam em segundo, terceiro ou quarto plano, o que demonstra uma inviabilidade no 15

VII Jornada de Iniciação Científica - 2011 desenvolvimento de paginas HTMl, XML e RDF para um mesmo site de e-comerce por exemplo. Além disso o próprio desenvolvimento de ontologias se mostrou algo de extrema complexidade em que a maioria dos desenvolvedores não seria capaz do desenvolvimento de redes complexas de ontologias que delimitassem todo o escopo de suas aplicações. Assim o desenvolvimento de uma única ontologia universal que se interpretasse todo o conteúdo da WEB seria uma solução para esse empasse das aplicações semânticas, porém essa ontologia encontra-se tão perto quanto a cura do câncer, ou seja, a inviabilidade das ontologias demanda que a melhor saída seriam uma rede de ontologias que se interligassem a uma ontologia central, porém cada uma dessas ontologias dependem do desenvolvimento de cada web máster, o que acarretaria infindáveis problemas de estruturação uma vez que a própria padronização dos dados é muito vaga pela W3C. Por fim as linguagens de desenvolvimento atuais encontram-se estagnadas no quesito de praticidade e semântica. Ainda cabe ao Java e sua API Jena o posto de linguagem com mais recursos a oferecer para aplicações que envolvam semântica de dados. Assim o desenvolvimento de qualquer servlet JSP envolvem mais do que uma lógica de programação apurada, também requer inúmeros conhecimentos de Inteligência artificial e de boas praticas de semantização de dados aplicados à diferentes linguagens de marcação e de referência. 6.REFERENCIAS Berners-Lee, Tim; Hendler, James; Lassila, Ora The Semantic Web. Scientific American Breitman, Karin. Web Semântica. A internet do futuro.1.ed.são Paulo.212 p. Maia, Diego; Torres, Felipe; Richard, Hugo. OWL: linguagem para representação de Ontologias. Seminário sobre Web Semântica. 2008 Rich, E. e Knight, K. Inteligência Artificial. 2ed, Makron, 1994. Rosa, Paulo, Web Semântica. Mac 5701.2002. Trabalho referente ao programa MAC- Instituto de Matemática IME. Universidade de São Paulo. São Paulo, 2002 Russell, Stuart; Norvig, Peter. Inteligência Artificial.2.ed Campus.SãpPaulo.1040p. Schiessl Marcelo. Ontologia: O termo e a Ideia. Universidade de Brasília. 2007. 172-181 p. Shadbolt, Nigel, Berners-Lee, Tim and Hall, Wendy(2006) The Semantic Web Revisited. IEEE Intelligent Systems. The Semantic Web Community Portal. http://www.semanticweb.org/ 16

W3 Consortium. www.w3.org Contato: thiagoalopes@gmail.com e ismar@mackenzie.br 17