Os Aspéctos Teóricos e Metodológicos da Cienciometria Webometria: aplicações e desafios 1º Encontro Brasileiro de Bibliometria e Cienciometria 14 a 16 de setembro de 2008 Fábio Castro Gouveia MV-COC-Fiocruz fgouveia@coc.fiocruz.br 15 de setembro de 2008
Webometria: aplicações e desafios O que é Webometria Ferramentas Webométricas (Mec. Busca) Tipos de estudos Webométricos Exemplos de aplicação Limitações e Desafios
O que é Webometria Ciência que faz estudos quantitativos de conteúdo e estrutura da Internet com a aplicação de métodos informétricos (Almind & Ingwersen, 1997) Netometrics (Bossy, 1995) Suplementa a bibliometria e a cienciometria ao observar a ciência em ação na Internet Webometry (Abraham, 1996) Internetometrics (Almind & Ingwersen, 1996) Webometrics (Almind & Ingwersen, 1997) Cybermetrics (periódico de 1997 por Isidro Aguillo) Ciência com pouco mais de dez anos de existência e tem o link como unidade central de estudo
O que é Webometria Terminologias mais frequentes Webmetrics ou Web Metrics Geralmente se refere a análise de logs ou por page tagging Cybermetrics O estudo dos aspectos quantitativos da construção e uso dos recursos de informação, estruturas e tecnologias da Internet como um todo a partir de abordagens informétricas e bibliométricas (Björneborn & Ingwersen, 2004) Grupos de discussão e listas de e-mail Medida relativas à tecnologia, topologia e tráfego na Internet Web (Webometria) Webometrics
Ferramentas Webométricas Webcrawler especializado Algoritmo de Busca Público Desenvolvido com propósitos Webométricos Base de dados deve ser criada especificamente para cada pesquisa Mecanismos de busca (Google / Altavista) Algoritmo de Busca Proprietário Prioridade em fornecer resultados satisfatórios e não necessariamente exatos Ampla base de dados disponível
Ferramentas Webométricas Mecanismos de Busca Mecanismos de Busca e Diretórios direcionam cerca de 85% do tráfego na Internet (Hu et al., 2001) Legitimação do conteúdo nos Diretórios e Mecanismos de Busca, e o PageRank (Brin & Page, 1998) Diretórios = Humanos Metadatos = Produtor de Conteúdo Page Rank = Rede de Links Indexação das páginas na Internet: Google 79%; Yahoo/Altavista 69%; MSN 62%; Ask/Teoma 58%. Sobreposição de 28,85% (Gulli & Signorin,2005) Mecanismos de busca permitem levantamentos amplos de relações entre sítios na Web (Wilkinson et al., 2003) Somente os mecanismos de busca viabilizam determinados estudos Webométricos (Kim et al., 2006)
Ferramentas Webométricas Mecanismos de Busca A escolha por um determinado mecanismo de busca para coleta dos dados, geralmente, leva em consideração dois aspectos o percentual de páginas indexadas os operadores booleanos permitidos para a consulta. Os booleanos permitem que sejam realizadas buscas avançadas e sua complexidade varia em cada mecanismo.
Tipos de Estudos Webométricos Fator de Impacto na Web Web IF Ingwersen (1998) ewif - modificado por Thelwall (2001) Análise de Co-Link Larson (1996) Análise de Interlink Thelwall (2002)
Tipos de Estudos Webométricos Diferentes tipologias de links Inlink e outlink: estão associados à perspectiva da URL que recebe e da URL que fornece o link. URL A URL B URL A URL B Inlinks Outlinks URL C URL C
Tipos de Estudos Webométricos Diferentes tipologias de links Interlinks (Thelwall, 2002) são os links trocados entre duas URLs. URL A URL B Co-links (Larson, 1996) ou co-sitations (Herrero- Solana & Morales-del-Castillo, 2004) ocorrem quando uma URL aponta simultaneamente para duas ou mais URLs.
Tipos de Estudos Webométricos Diferentes tipologias de links Co-outlinks e co-inlinks Björneborn & Ingwersen (2004) URL A URL B URL C URL D
Tipos de Estudos Webométricos Cláusulas ou strings de busca WIF externo ewif (visibilidade/tamanho do sítio) (A) link:urln host:urln ou linkdomain:urln host:urln (B) host:urln WIF externo = A/B Co-link (co-inlink) link:urln link:urln linkdomain:urln linkdomain:urln Interlink link:urln host:urln (todos os links provenientes das páginas do sítio que apontam para a página inicial de outro sítio) linkdomain:urln host:urln (todos os links provenientes das páginas do sítio que apontam para outro sítio)
Exemplos Fator de Impacto na Web externo External Web Impact Factor ewif
Exemplo de dados de ewif
Exemplo comparativo de ewif para diferentes associações de museus e centros de ciência Associação Máximo Mínimo Média Mediana ASTC 116,5385 0,0095 7,6387 3,2785 ECSITE 92,4490 0,0433 4,8479 1,8574 NSCF 18,4783 0,0748 3,0674 1,8613 ASPAC 94,5455 0,0429 13,5067 4,2511 RedPOP 15,5952 0,0528 1,6118 0,8714 ABCMC 9,9737 0,0151 1,5188 0,8707 Gouveia (2007)
Exemplos Análise de Co-link Co-link Analysis
Exemplo de matriz para coleta de co-links Link:URL1 AND Link:URL2 URL1 = www.website.com.br e URL2 = www.outro.com.br Link:www.website.com.br AND Link:www.outro.com.br URL1 URL2 URL3 URL1 da coluna Link:URL1 AND Link:URL2 Link:URL1 AND Link:URL3 URL2 Link:URL2 AND Link:URL1 da coluna Link:URL2 AND Link:URL3 URL3 Link:URL3 AND Link:URL1 Link:URL3 AND Link:URL2 da coluna URL1 URL2 URL3 URL1 790 220 570 URL2 220 580 360 URL3 570 360 930
Exemplo de levantamento de co-link
Red de Popularización de la Ciencia y la Tecnología para América Latina y el Caribe (RedPOP)
Matriz de co-link Gouveia & Kurtenbach (2009)
RedPOP (n=18) 5 agrupamentos Gouveia & Kurtenbach (2009)
Sítios em espanhol Gouveia & Kurtenbach (2009)
Sítios brasileiros Gouveia & Kurtenbach (2009)
Gouveia & Kurtenbach (2009)
Co-link de sítios de unidades da Fiocruz link:urln link: URLn -fiocruz.br Ward`s method 1-Pearson r Bio Far IOC Ipec Icict EPSJV Coc Ensp IFF INCQS 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 Linkage Distance Lang, Gouveia & Leta
Analise de co-link Quais os fatores mais importantes? Idioma comum Idiomas disponíveis no sítio Distância geográfica Relação política Proximidade temática Associações e redes Projetos de cooperação
Exemplos Análise de Interlink Interlink analysis
Interlinking de unidades da Fiocruz link:urln host:urln Bio Icict INQCS EPSJV Ipec IOC Coc IFF Far Ensp Fiocruz 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Lang, Gouveia & Leta
Exemplos Ranking de Universidades na Web Universities Web Ranking
Limitações e Desafios Mecanismos de busca não indexam todas as páginas da Internet Número limitado de resultados: 250 a 1000 Existência de diferentes endereços URL para um mesmo sítio Mecanismos de busca podem gerar resultados diferentes Sítios em subdiretórios ou que compartilham o domínio dificultam a análise Resultados podem variar ao longo do tempo Resultados podem variar dependendo do número de resultados por página solicitados
Limitações e Desafios Os sítios e os links Sítios não são artigos ou revistas, mas pela Webometria podemos levantar a visibilidade e impacto de instituições na Web Links não são iguais a citações, mas os métodos de análise podem ser compartilhados Links mantém a Internet viva e também são dinâmicos Links afetam o ranking das páginas em mecanismos de busca (têm valor comercial) Teoria sobre a motivação de links é necessária
Limitações e Desafios Comunicação e estrutura da Web A estrutura da Web é caótica em virtude das diferentes arquiteturas de informação de cada sítio A Internet hoje em dia representa um meio para dar visibilidade a uma instituição, pesquisa ou pesquisador Mecanismos de busca A Web cresce mais rápido do que pode ser indexada e alguns sítios fazem uso de métodos para manipular o seu ranking Sítios dinâmicos podem ser de difícil indexação aumentando a estimativa do tamanho do sítio ou não sendo indexáveis ( Web Invisível ) Os mecanismos de busca não são perfeitos pois a cobertura não é completa, mas permitem desenvolver uma série de estudos Webométricos
Os Aspéctos Teóricos e Metodológicos da Cienciometria Webometria: aplicações e desafios 1º Encontro Brasileiro de Bibliometria e Cienciometria 14 a 16 de setembro de 2008 Fábio Castro Gouveia MV-COC-Fiocruz fgouveia@coc.fiocruz.br 15 de setembro de 2008