Documento Descritivo do Mecanismo de Busca Este documento visa esclarecer as regras que serão executadas pelo mecanismo de busca para a recuperação de informações a partir de uma palavra e/ou expressão pesquisada no portal do Governo de Minas. Preparação do Portal para indexação A preparação de um site para os primeiros lugares dos resultados das buscas é conhecido em português pela expressão "otimização para buscadores" (em inglês, SEO, search engine optimization). Algumas medidas serão tomadas para ajudar a melhorar o ranking Portal do nos resultados de busca. Otimizar título do Portal, e das páginas do Portal, pois o título é um dos principais fatores de decisão para posicionamento do site em relação às palavras-chave usadas em uma busca. Otimizar as meta tags para o bom posicionamento do Portal nas buscas. Quando bem escrita, aproveitando-se corretamente das palavras-chave da página em questão, pode chamar a atenção do usuário e do buscador. Incluir nos conteúdos publicação de tags, termos-chave de acesso, palavras-chaves e expressões familiares aos usuários. É importante inserir as palavras-chave mais importantes no início dos textos, incluir títulos (title tags) relevantes e únicos em cada conteúdo e atualizá-los constantemente. Consultar nas estatísticas de acesso e na ferramenta de busca do próprio Portal, periodicamente, as palavras-chave mais utilizadas nos buscadores para acessar o site e inseri-las nos conteúdos de forma a facilitar a localização das mesmas pelo usuário. Construir o Portal segundo os padrões web, deixando os arquivos CSS e JavaScript fora da página, diminui o tamanho do código e favorece a indexação. A arquitetura da informação deve preocupar-se em colocar os itens mais importantes da estrutura nos níveis superficiais, preferencialmente nos 2 primeiros níveis, para que os mecanismos de busca encontrem mais facilmente as páginas mais importantes e seu conteúdo. Quando há necessidade de aprofundar os níveis, as camadas intermediárias devem conter as principais palavraschave dos níveis mais profundos. 1
Aplicar nomenclatura consistente nas páginas e nos arquivos (imagens, PDFs, vídeos) e conteúdos. Exemplos: Não Recomendável Tesepmsouza.pdf icone5.jpg Recomendável microbiologiaaplicada_paulomatosdesouza.pdf literatura_novidades.jpg. Nos exemplos acima, os nomes dos arquivos da primeira coluna não apresentam informações consistentes sobre seu conteúdo, enquanto os nomes da segunda coluna contêm palavras que serão efetivamente pesquisadas. Preparar a URL da página com palavras relacionadas ao conteúdo, mas evitar URLs muito longas, que dificultam a digitação e o arquivamento pelos usuários e não são bem aceitas pelos buscadores. Promover a publicação da URL em sites de parceiros, contatos, clientes, assinantes, comunidades, redes sociais, blogs. Estes links devem ser direcionados para o próprio conteúdo, em vez de encaminhar para a página principal. Inserir meta informações sobre o conteúdo, como "robots", "keywords" e "description" e aplicar marcações para as páginas que não devem ser indexadas, como <META NAME="robots" content="noindex, nofollow">. Acompanhar as atualizações dos métodos e algoritmos dos buscadores, que mudam sempre (assim como a posição dos links no ranking de cada uma). Evitar listas de links fora de contexto e marcações enganosas para forçar um ranking privilegiado nos resultados. Publicar um mapa do site facilmente indexável (em modo texto) com os títulos e URLs da maioria das páginas ou das principais áreas de conteúdo. Preparar os arquivos de vídeo e áudio com legendas e textos alternativos ("alt tags"), com descrições do conteúdo e informações de autoria e direitos de publicação Evitar a utilização de arquivos em Flash, mas se utilizar, prepará-los com legendas e textos alternativos, pois muitos destes arquivos ainda são reconhecidos como imagem e os links são indexados de maneira muito simplificada. Aplicar normas de usabilidade e acessibilidade na formatação do conteúdo para facilitar a sua indexação. Utilizar a ferramenta do yahoo.com para identificar sites que fazem hiperlink para o antigo portal mg.gov.br Linkdomain:mg.gov.br. A lista de links já identificados no Anexo I deste documento, já está sendo avaliada para mapeamento das novas URLs, a fim de evitar queda do atual pagerank do Portal. 2
Regras de composição de resultados de busca A busca pelo(s) termo(s) pesquisado(s) é realizada em conteúdos indexados no banco de dados do Portal, conforme padrões citados no item acima. A pesquisa pode ser realizada por um ou vários termos/palavras ou por frases e expressões e os resultados apresentados contêm o(s) termo(s) pesquisado(s), uma ou mais vezes, em seu conteúdo. Também é possível restringir a busca quando se possui mais informações sobre o item procurado, utilizando os filtros 1 para argumentos de pesquisa, o que oferece resultados mais objetivos para o usuário. Campos/Botões Descrição Retornar Retorna à pagina anterior que foi navegada pelo usuário. Busca Avançada Esconde/exibe os campos de filtro da pesquisa. Alterna a exibição dos resultados encontrados entre imagens e conteúdos do Portal / Imagens Portal. Campo para se informar palavras que possam estar relacionadas ao conteúdo Buscar nas tags selecionadas desejado na pesquisa. Adicionar tag Incluir palavra informada nos argumentos de pesquisa. Remover todas Remover todas as palavras incluídas nos argumentos de pesquisa. Filtrar por Campo para filtrar nome das comunidades (área do Portal) exibidas. Adicionar todas as comunidades (áreas do Portal) listadas nos argumentos de Adicionar todas pesquisa. Remover todas Remover todas as comunidades informadas como argumento de pesquisa. + Adiciona comunidade selecionada aos argumentos de pesquisa. - Remove comunidade selecionada dos argumentos de pesquisa. Filtro para informar a precisão dos resultados. Os valores possíveis são: - Alguma das palavras: pesquisa nos itens indexados conteúdos que contenham quaisquer termos informados. Considerar - Todas as palavras: pesquisa nos itens indexados conteúdos que contenham todos os termos informados. - Frase exata: pesquisa nos itens indexados conteúdos que contenham exatamente a frase informada. 1 Será incluído filtro que dará ao usuário a opção de pesquisar, também, por termos relacionados ou sinônimos. 3
Buscar por Filtro por tipo de item a ser pesquisado. - Arquivo - Conteúdo - FAQ - Fórum Os valores possíveis são: - Imagem - Notícia - Serviço Ordenar por Resultados p/ página Aproximação Busca Ok Critério de apresentação dos resultados. Os valores possíveis são: - Relevância: considera em que parte e quantas vezes o termo aparece no conteúdo. Termos contidos no título têm maior relevância, termos contidos na descrição têm média relevância e termos contidos no corpo têm menor relevância. - Mais recentes: ordena os resultados pela data da última alteração do conteúdo, apresentando os conteúdos de data mais recente primeiramente. - Título: ordena os resultados alfabeticamente pelo título do conteúdo. - Descrição: ordena os resultados alfabeticamente pela descrição do conteúdo. Quantidade de resultados apresentados por página. Os valores possíveis são: - 10-20 - 40-60 - 80-100 Critério de similaridade com a grafia do(s) termo(s) informado(s). Os valores possíveis são: - Igual - Média - Alta - Baixa Campo para digitação do(s) termo(s) desejado(s). Botão que aciona a pesquisa do termo(s) informado(s). Regras de definição de ranking e posicionamento dos resultados O mecanismo baseia-se no Modelo de Espaço Vetorial (VSM Vectorial Space Model), no qual o peso dado a um determinado termo-índice é uma variável real que reflete o grau de relevância do termo dentro do documento. Neste modelo, tanto o documento quanto a pesquisa são considerados vetores sobre o espaço de termos. A função de similaridade - sim(d,q) - entre uma pesquisa e um documento é definida como o ângulo entre a representação vetorial do documento e a representação vetorial da consulta, de forma que, quanto menor o ângulo entre os dois vetores, maior é a relevância do documento em relação à pesquisa. Este valor calculado é chamado score e é a forma padrão de cálculo de relevância para exibição de resultados. Entretanto, é permitida a parametrização desta relevância, informando um valor entre 1 e 5 (boost) para tipos e campos de conteúdo, sendo o valor 5 mais relevante. A Powerlogic fará a parametrização necessária, de acordo com as diretrizes que serão fornecidas pela SEPLAG. Fórmula para o cálculo do score: Onde: 4
tf(t in d) - corresponde à frequência do termo, que é definida pelo número de vezes em que t aparece no documento d (documento em que o score está sendo calculado). Documentos que possuem mais ocorrências de um determinado termo têm score mais alto. idf(t) sigla para Frequência Inversa em Documentos (Inverse Document Frequency). Este valor corresponde ao inverso do docfreq (o número de documentos nos quais cada termo t aparece). Isto significa que termos mais raros dão maior contribuição para o valor total do score. coord(q,d) é um fator para o cálculo do score, baseado em quantos termos da consulta são encontrados no documento especificado. Normalmente, um documento que contém mais termos da consulta receberá um valor de score maior que outro com menos termos. querynorm(q) é um fator de normalização usado para definir scores entre consulta similares. Este fator não afeta a avaliação do documento, uma vez que todos os documentos avaliados são multiplicados pelo mesmo fator. A intenção deste fator é apenas tentar obter valores de consultas ou indexes similares. t.getboost() é um impulso (boost) para o tempo de busca do termo t em uma consulta q, conforme especificado no texto da consulta, ou em uma chamada setboost() definida na aplicação. norm(t,d) condensa alguns fatores de impulsos (boosts) e duração (tempo de indexação): o o o Impulso em documento determinado implementando a chamada doc.setboost() antes de adicionar o documento no índex. Impulso em campo - determinado implementando a chamada field.setboost() antes de incluir o campo em um documento. lengthnorm(field) calculado quando o documento adicionado ao índex, de acordo com o número de tokens do campo no documento, de modo que campos menores contribuam mais para o score. Quando um documento é adicionado ao índex, todos os fatores acima são multiplicados. Se um documento possui vários campos com o mesmo nome, todos os seus impulsos (boosts) são multiplicados juntos. Regras de associação de resultados a partir do vocabulário controlado O vocabulário controlado, uma vez identificado e cadastrado no banco de dados do Portal, será indexado juntamente com os conteúdos definidos. Ao usuário final será permitida a escolha de realizar a busca utilizando ternos relacionados ou sinônimos do termo informado, quando realizar a pesquisa pela busca avançada. A busca simples e principal, que ficará disponível em todas as páginas do Portal, no canto superior direito, terá por padrão pesquisar os termos relacionados ao termo informado. Esta regra permitirá que o usuário final, mesmo não conhecendo o termo oficial, encontre o conteúdo desejado, informando a forma coloquial de expressão do termo. Como exemplo, podemos citar siglas de órgãos, entidades e documentos. Além disso, a diversidade de resultados pode apresentar conteúdos que sejam relevantes para o usuário naquele momento, mas que o mesmo não havia previsto pesquisar. A utilização do vocabulário controlado na pesquisa permitirá a antecipação dos desejos e necessidades do usuário final, facilitando sua utilização do Portal e tornando sua visita mais agradável e memorável. 5
Bibliografia ecompany Administration Guide ecompany Portal versão 5.1 [ROSENFELD, L.; MORVILLE, P.] Information Architecture for the World Wide Web. 3. ed. Sebastopol, CA: O'Reilly, 2006. http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/search/similarity.html consultado em 27/10/2009 [SMITH, GENE] Tagging - People Powered Metadata for Social Web, 1.ed. Berkeley, CA: Gene Smith, 2008. http://www.mestreseo.com.br/tutorial-seo consultado em 26/10/2009 http://www.seomoz.org/dp/seo-industry-survey-results consultado em 26/10/2009 6