UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS



Documentos relacionados
UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS

REDES EM CIÊNCIA DA INFORMAÇÃO: EVIDÊNCIAS COMPORTAMENTAIS DOS PESQUISADORES E TENDÊNCIAS EVOLUTIVAS DAS REDES DE CO- AUTORIA

NOTA II TABELAS E GRÁFICOS

Fast Multiresolution Image Querying

Nota Técnica Médias do ENEM 2009 por Escola

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

Introdução e Organização de Dados Estatísticos

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

Professor Mauricio Lutz CORRELAÇÃO

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

Regressão e Correlação Linear

5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

Cálculo do Conceito ENADE

Sistemas Robóticos. Sumário. Introdução. Introdução. Navegação. Introdução Onde estou? Para onde vou? Como vou lá chegar?

Atribuição Automática de Propagandas a Páginas da Web

VULNERABILIDADE DE REDES COMPLEXAS

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

MAPEAMENTO DA VARIABILIDADE ESPACIAL

3 Algoritmos propostos

7 - Distribuição de Freqüências

Avaliação da Tendência de Precipitação Pluviométrica Anual no Estado de Sergipe. Evaluation of the Annual Rainfall Trend in the State of Sergipe

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

LOCALIZAÇÃO ESPACIAL DA MÃO DO USUÁRIO UTILIZANDO WII REMOTE. Ricardo Silva Tavares 1 ; Roberto Scalco 2

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

UNIVERSIDADE DO ESTADO DA BAHIA - UNEB DEPARTAMENTO DE CIÊNCIAS EXATAS E DA TERRA COLEGIADO DO CURSO DE DESENHO INDUSTRIAL CAMPUS I - SALVADOR

Expressão da Incerteza de Medição para a Grandeza Energia Elétrica

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

Introdução à Análise de Dados nas medidas de grandezas físicas

PLANILHAS EXCEL/VBA PARA PROBLEMAS ENVOLVENDO EQUILÍBRIO LÍQUIDO-VAPOR EM SISTEMAS BINÁRIOS

Estimativa dos fluxos turbulentos de calor sensível, calor latente e CO 2, sobre cana-de-açúcar, pelo método do coespectro.

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

PREVISÃO DO ÍNDICE MERVAL: UMA APLICAÇÃO DE REDES NEURIAS POLINOMIAIS GMDH

Avaliação da Recuperação em Sistemas de RBC Estrutural e Textual: Uma Aplicação no Domínio de Help Desk

Análise Econômica da Aplicação de Motores de Alto Rendimento

UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS

Estatística stica Descritiva

Termodinâmica e Termoquímica

UTILIZAÇÃO DO MÉTODO DE TAGUCHI NA REDUÇÃO DOS CUSTOS DE PROJETOS. Uma equação simplificada para se determinar o lucro de uma empresa é:

O Método de Redes Neurais com Função de Ativação de Base Radial para Classificação em Data Mining

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Rastreando Algoritmos

2 Máquinas de Vetor Suporte 2.1. Introdução

1 Princípios da entropia e da energia

Covariância e Correlação Linear


Caderno de Exercícios Resolvidos

Estimativa da Incerteza de Medição da Viscosidade Cinemática pelo Método Manual em Biodiesel

Representação e Descrição de Regiões

ALGORITMO E PROGRAMAÇÃO

PLANEJAMENTO DE EXPERIMENTOS E OTIMIZAÇÃO DE SISTEMAS MISTOS

CÁLCULO DO ALUNO EQUIVALENTE PARA FINS DE ANÁLISE DE CUSTOS DE MANUTENÇÃO DAS IFES

3 A técnica de computação intensiva Bootstrap

UMA REDE NEURAL ARTIFICIAL HÍBRIDA: MULTI-LAYER PERCEPTRON (MLP) E INTERAC- TIVE ACTIVATION AND COMPETITION (IAC)

Controlo Metrológico de Contadores de Gás

7. Resolução Numérica de Equações Diferenciais Ordinárias

Universidade Estadual de Ponta Grossa/Departamento de Economia/Ponta Grossa, PR. Palavras-chave: CAPM, Otimização de carteiras, ações.

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Carlos Vogt, Flávia Gouveia, Ana Paula Morales, Flávio Daher e Fábio Pisaruk *

7.4 Precificação dos Serviços de Transmissão em Ambiente Desregulamentado

Controle de qualidade de produto cartográfico aplicado a imagem de alta resolução

* Economista do Instituto Federal do Sertão Pernambucano na Pró-Reitoria de Desenvolvimento Institucional PRODI.

Distribuição de Massa Molar

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Sempre que surgir uma dúvida quanto à utilização de um instrumento ou componente, o aluno deverá consultar o professor para esclarecimentos.

Capítulo 1. O plano complexo Introdução. Os números complexos começaram por ser introduzidos para dar sentido à 2

TRANSPORTE E ESTOCAGEM DE FUMO UM MODELO DE PROGRAMAÇÃO LINEAR USADO NA TOMADA DE DECISÃO

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

4 Critérios para Avaliação dos Cenários

3ª AULA: ESTATÍSTICA DESCRITIVA Medidas Numéricas

POLARIMETRIA ÓPTICA E MODELAGEM DE POLARES OBSERVADAS NO OPD/LNA NO PERÍODO DE

NORMAS DE SELEÇÃO AO DOUTORADO

ESTATÍSTICAS E INDICADORES DE COMÉRCIO EXTERNO

Probabilidade e Estatística. Correlação e Regressão Linear

MODELAGEM MATEMÁTICA DO PROCESSO DE EVAPORAÇÃO MULTI-EFEITO NA INDÚSTRIA DE PAPEL E CELULOSE

Organização da Aula. Gestão de Obras Públicas. Aula 2. Projeto de Gestão de Obras Públicas Municipais. Contextualização

IMPLEMENTAÇÃO DE REDES NEURAIS ARTIFICIAIS UTILIZANDO A LINGUAGEM DE PROGRAMAÇÃO JAVA

O Uso do Software Matlab Aplicado à Previsão de Índices da Bolsa de Valores: Um Estudo de Caso no Curso de Engenharia de Produção

CQ110 : Princípios de FQ

Influência dos Procedimentos de Ensaios e Tratamento de Dados em Análise Probabilística de Estrutura de Contenção

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

ANÁLISE DE CONFIABILIDADE DO MODELO SCS-CN EM DIFERENTES ESCALAS ESPACIAIS NO SEMIÁRIDO

UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS

REGRESSÃO LOGÍSTICA. Seja Y uma variável aleatória dummy definida como:

SCATTER SEARCH APLICADO AO PROBLEMA DE OTIMIZAÇÃO DA ALOCAÇÃO DE SONDAS DE PRODUÇÃO EM POÇOS DE PETRÓLEO

PREDIÇÃO DO FENÔMENO DE VAPORIZAÇÃO RETRÓGRADA DUPLA EM MISTURAS DE HIDROCARBONETOS

FUNÇÃO NO R PARA OBTENÇÃO DO DESENHO D-ÓTIMO EM MODELOS DE MISTURAS COM RESTRIÇÕES

Apostila de Estatística Curso de Matemática. Volume II Probabilidades, Distribuição Binomial, Distribuição Normal. Prof. Dr. Celso Eduardo Tuna

PROPOSIÇÃO, VALIDAÇÃO E ANÁLISE DOS MODELOS QUE CORRELACIONAM ESTRUTURA QUÍMICA E ATIVIDADE BIOLÓGICA

Elaboração: Fevereiro/2008

IV - Descrição e Apresentação dos Dados. Prof. Herondino

ELEMENTOS DE CIRCUITOS

Visando dar continuidade ao trabalho de simulação, encaminho o MODELO DE ALOCAÇÃO E DIMENSIONAMENTO DO PESSOAL DOCENTE DE TERCEIRO GRAU

DETERMINAÇÃO DE ALTITUGE ORTOMÉTRICA COM USO DA INTEGRAÇÃO DO GPS/NIVELAMENTO AO MAPGEO2010

Investigação Sobre Robustez de Comunidades em Redes

Universidade Salvador UNIFACS Cursos de Engenharia Cálculo IV Profa: Ilka Rebouças Freire. Integrais Múltiplas

Estudo quantitativo do processo de tomada de decisão de um projeto de melhoria da qualidade de ensino de graduação.

Transcrição:

GT 8 Informação e Tecnologa Modaldade de apresentação: Comuncação Oral UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS Wladmr Cardoso Brandão Unversdade Federal de Mnas Geras Fernando Slva Parreras Unversty of Koblenz-Landau, Alemanha Resumo: Nos últmos anos, a área de recuperação de nformação tem recebdo atenção especal da comundade centífca mundal. Pesqusas relaconadas à melhora de métodos e algortmos para recuperação de nformação textual tem se amplado, concentradas, em grande parte, no aprmoramento do modelo vetoral, em especal na busca por métodos e funções mas efcentes para cálculo de smlardade entre documentos e consultas. Paralelamente, a análse de redes complexas tem despertado o nteresse da comundade centífca devdo a sua capacdade de representação de problemas complexos de manera obetva, oferecendo um arcabouço teórco e prátco para o estudo das propredades e comportamentos dos elementos e relações que compõem os problemas. Recentemente, pesqusas consderando documentos como redes complexas de palavras vem sendo desenvolvdas. Entretanto, as possbldades de utlzação desta abordagem na resolução de problemas de recuperação e classfcação de nformação anda foram pouco exploradas. O presente artgo apresenta uma abordagem baseada em métrcas de redes complexas para obtenção de uma função de atrbução de pesos a termos em documentos. A presente abordagem apresentou precsão equvalente ao modelo vetoral quando aplcada para estmatva de smlardade entre documentos e consultas a partr de uma coleção de referênca, o que evdenca a aplcabldade de métrcas de redes complexas de palavras em problemas de recuperação de nformação. Palavras-chave: Recuperação de nformação, redes complexas, redes de palavras, métrcas de rede.

1. INTRODUÇÃO Apesar dos avanços no campo de recuperação de nformação, em especal na melhora dos métodos e algortmos para cálculo de smlardade entre documentos e consultas e para ordenação de resultados, a análse de redes complexas como abordagem para melhorar o desempenho dos sstemas de recuperação e de classfcação de nformação fo pouco explorada. Apenas recentemente, em grande medda a partr dos estudos de Klenberg (1999, 2000a, 2000b), o tema redes complexas começou a despertar de manera mas ntensa o nteresse da comundade centífca mundal. Embora em pequeno número, esforços procurando adotar o arcabouço teórco e prátco provenentes da análse de redes complexas na tentatva de obtenção de maor desempenho em processos de sumarzação, recuperação e classfcação de nformação textual têm sdo observados nos últmos anos. Nesse sentdo, pesqusadores assumem como hpótese que o conhecmento da estrutura, do comportamento e das propredades de redes complexas de documentos, de termos, de co-autora e de ctação potencalza o desenvolvmento de técncas e algortmos mas efcentes a serem aplcados na resolução de problemas relaconados à organzação e ao tratamento de nformação. O presente artgo apresenta uma abordagem baseada em métrcas de redes complexas para obtenção de funções mas efcentes para atrbução de pesos a termos em documentos. Apresenta também os resultados expermentas da aplcação desta abordagem em um problema de cálculo de smlardade entre documentos e consultas. A abordagem apresentou desempenho equvalente ao esquema TF IDF 1 utlzado pelo modelo vetoral, consderando como métrcas de avalação a precsão 2 e a revocação 3, o que demonstra o potencal de utlzação de métrcas de redes complexas de palavras em problemas de recuperação de nformação. Na sessão 2 são apresentados trabalhos relaconados. A sessão 3 descreve alguns concetos báscos da teora de redes complexas necessáros para a compreensão da abordagem. A sessão 4 apresenta meddas de nfluênca assocadas a cálculos de smlardade. A sessão 5 descreve a abordagem proposta para obtenção de novas funções de atrbução de pesos. A 1 Esquemas TF-IDF consderam as freqüêncas dos termos nos documentos (TF) e as freqüêncas nvertdas dos termos na coleção (IDF) para calcular pesos de termos em documentos. 2 Precsão é uma medda de exatdão usada para estmar o desempenho de um sstema de recuperação de nformação. 3 Revocação é uma medda de completude usada para estmar o desempenho de um sstema de recuperação de nformação.

sessão 6 descreve o expermento efetuado, bem como apresenta os resultados expermentas obtdos. Fnalmente, a sessão 7 conclu o artgo apontando dreções para trabalhos futuros.

2. TRABALHOS RELACIONADOS Burgess et al. (2006), ao procurarem estabelecer uma nova métrca ndcatva da nfluênca de um nó em um grafo, baseando-se apenas em aspectos topológcos, determnam como satsfatóra a métrca denomnada egenvector centralty (BONACICH, 1972). A expectatva dos autores é de que tal métrca possa ser utlzada como uma alternatva mas efcente aos métodos tradconas de ordenamento de págnas na Web utlzadas pelos mecansmos de busca. Korfats et al. (2007) descrevem modelos que provêem a ntegração de técncas de ordenamento de documentos para recuperação de nformação e técncas de análse de rede socal. A ulgar pela tendênca dos sstemas baseados em computador absorverem cada vez mas concetos das áreas socas, como reputação e credbldade, tal ntegração será amplada com o decorrer do tempo. Abordagens que consderam documentos como cadeas de concetos são descrtas por Srhar et al. (2005) como alternatvas aos métodos tradconas de recuperação de nformação, permtndo a representação mas sofstcada de consultas e documentos e a construção de algortmos gualmente sofstcados que mplementem técncas avançadas de mneração em grafos. Segundo a mesma lnha, Montes-Y-Gómez et al. (2000) apresentam um modelo para recuperação de nformação e mneração de textos baseado em meddas de smlardade entre grafos representatvos de sentenças e documentos. Brandes et al. (2006), a fm de ldar com o problema da sumarzação automátca de textos em coleções heterogêneas, propõem um modelo para dentfcação de smlardades e dos graus de nfluênca de documentos e termos em uma coleção. Tal modelo baseou-se numa estrutura de rede bpartda de termos e documentos e utlzou um processo analítco denomnado spectral analyss. Como medda de nfluênca, os autores testaram dferentes tpos de métrcas, como tf-df e betweenness centralty, sendo que a últma demonstrou ser mas efcente para capturar um número maor de nformações estruturas dos documentos. Xe (2005) demonstra que o uso de métrcas de redes complexas, utlzadas em conunto ou separadamente das métrcas de nfluênca tradconas do campo da recuperação de nformação pode tornar o processo de sumarzação mas efcente.

Outra abordagen (ERKAN; RADEV, 2004a) leva em consderação métrcas de prestígo, como egenvector centralty, para fltrar os mas mportantes sntagmas 4 em um documento com o ntuto de melhorar a efcênca do processo de sumarzação. Um método baseado em grafos para determnação de prestígo e nfluênca em processamento de termos em lnguagem natural é descrto detalhadamente por Erkan e Radey (2004b). Na comparação entre as métrcas fetas pelos autores, as baseadas em centraldade de rede se mostraram melhores que as outras comumente utlzadas para resolução de problemas de sumarzação. Brandes e Cornelsen (2001) propõem um método de recuperação de nformação baseado na vsualzação de documentos que suporta, smultaneamente, a exploração de sua estrutura nterna de lnks e o seu ordenamento relatvo na coleção. Tal método utlza-se de métrcas como egenvector centralty e outdegree centralty para a obtenção da função de ordenamento. Apesar de demonstrar utldade na exploração de estruturas nter-relaconadas de documentos, o método provou ser nefcente para redes complexas. Anda consderando métodos que exploram a estrutura de lnks de documentos, Huang e La (2003) propõem a utlzação de uma combnação de métrcas de rede (degree centralty, betweenness centralty e closeness centralty) para mputação de mportânca e relevânca em uma rede de documentos. Segundo os autores, o ordenamento de mportânca obtdo a partr de seu método pode ser assocado a perfs de usuáros em um sstema de dssemnação seletva de nformação, a fm de determnar com maor precsão o grau de relevânca de um documento para o usuáro. Chtrapura e Kashyap (2004) propõem um método de ordenamento dnâmco de documentos mas efcaz que os métodos tradconas que usam PageRank 5. Tal método se basea na assocação de fluxos de valores, calculados a partr da métrca de outdegree centralty, aos nós da rede para determnação do grau de nfluênca do nó em relação à rede como um todo. Tal método apresentou baxo mpacto no tempo de execução da consulta apresentado melhores resultados que os métodos tradconas. Kurland e Lee (2005) apresentam um método de ordenamento da lsta de documentos retornados por uma consulta através do estabelecmento de um nova ordenação a partr da 4 Sntagmas são conuntos de termos que carregam sgnfcado. 5 PageRank é um método para atrbução de pesos a documentos que leva em conta as conexões entre os documentos da coleção.

exploração das relações assmétrcas entre os elementos do conunto retornado. Utlzando métrcas de centraldade de rede como crtéro para o estabelecmento de novas funções de ordenamento, os autores demonstraram que o método melhorou a precsão na recuperação dos prmeros 10 documentos retornados em 10%. Zhou et al. (2006) propõem um modelo para recuperação de nformação de bases textuas baseado no uso das relações semântcas entre termos obtdas através da extração de sntagmas dos documentos e seu posteror casamento e substtução por termos presentes em redes semântcas. Tal modelo apresentou ganhos sgnfcatvos de precsão (27%) na recuperação dos 100 prmeros documentos retornados para uma consulta. 3. REDES COMPLEXAS O conceto de rede é aplcado em dversas áreas do conhecmento humano. Genercamente pode-se defnr uma rede como um conunto de elementos que mantêm conexões uns com os outros. Na lteratura matemátca, as redes são reconhecdas como grafos, seus elementos como vértces e suas conexões como arestas. Já nas cêncas socas, os elementos são denomnados atores e as conexões são laços. Por outro lado, na lteratura da cênca da computação, os elementos são reconhecdos como nós e as conexões como lgações. No mundo real, sstemas podem ser representados e problemas podem ser tratados a- través da abordagem de rede. Um grupo de pessoas em uma organzação trocando mensagens eletrôncas a fm de desempenhar suas funções pode ser nterpretado como uma rede socal, onde cada pessoa passa a ser um ator e as mensagens eletrôncas por eles trocadas passam a ser os laços da rede. Nesse sentdo, o entendmento das redes, de sua estrutura, propredades e comportamento, é fundamental para a compreensão das dversas classes de sstemas e problemas que podem ser por elas modelados e tratados. Em redes smples, com dezenas ou centenas de nós e lgações, a própra vsualzação e nterpretação do grafo a olho nu se consttu em mportante ferramenta de análse. Entretanto, a modelagem da grande maora dos sstemas e problemas reas envolve redes complexas, com mlhares, mlhões, ou mesmo blhões de nós e lgações. Além dsso, os nós em redes complexas podem assumr dferentes formas e apresentarem dferentes atrbutos, e as lgações podem ter sgnfcados dferentes podendo assumr valores e terem orentação. Para essa clas-

se de rede, a análse a olho nu se torna de pouca vala, uma vez que a quantdade de nformação é tão grande que nvablza sua completa vsualzação, o que torna pratcamente mpossível seu processamento vsual pelo cérebro humano. 3.1. Modelos e Redes Reas Uma gama de problemas do mundo real podem ser modelados como redes complexas. A nternet, a malha rodovára e ferrovára e o sstema de dstrbução de energa de um país podem ser nterpretados como redes tecnológcas complexas. A Web, assm como as redes de ctação entre artgos acadêmcos e os thesaurus 6 podem ser entenddos como complexas redes de conhecmento uma vez que sua estrutura reflete a estrutura de armazenamento de nformação em seus elementos. Sstemas bológcos também podem ser representados por redes: um exemplo é a cadea predatóra entre anmas onde os nós representam as dversas classes de anmas presentes na fauna e as lgações representam uma relação de predação entre duas classes. Ao longo dos anos modelos matemátcos foram desenvolvdos vsando prover métodos e mecansmos para análse de redes complexas. Modelos de geração e crescmento de redes têm sdo propostos e suas propredades têm sdo estudadas. Dentre as propredades cabe destacar as relaconadas ao tamanho da rede, como o dâmetro (dameter), aos graus de centraldade dos nós, tas como o grau de centraldade (degree centralty), o grau de ntermedação (beetweenness centralty) e o grau de proxmdade (closeness centralty), ao grau de transtvdade, tal como o coefcente de agrupamento (clusterng coeffcent) e às suas respectvas dstrbuções estatístcas. Modelos de geração cram redes que apresentam característcas partculares no que tange algumas de suas propredades. Erdös e Rény (1959, 1960) propuseram a geração de uma rede a partr de lgações estabelecdas de manera aleatóra entre seus nós, ou sea, todos os nós da rede têm a mesma probabldade de estabelecerem relações uns com os outros. Tal modelo acaba por gerar uma rede denomnada rede randômca ou aleatóra, com a característca pecular de apresentar dâmetro pequeno e baxo coefcente de agrupamento. 6 Thesaurus são vocabuláros controlados freqüentemente utlzados na ndexação e rotulação de documentos.

Watts e Strogatz (1998), baseando-se no famoso expermento de Stanley Mlgram da década de 1960, denomnado posterormente por Guare (1990) de Sx Degrees of Separaton, propõem um modelo de geração de rede a partr da reescrta ou adção de um pequeno número de lgações de manera aleatóra em uma rede regular 7, o que acaba por gerar uma rede do tpo mundo-pequeno (small-world) com a característca pecular de apresentar pequeno dâmetro e elevado coefcente de agrupamento. No modelo de crescmento proposto por Barabás e Albert (1999), nós entrantes na rede se assocam as nós presentes por regras de preferênca (preferental attachment), sendo que os nós com maor número de lgações têm maor probabldade de receber novas lgações que os outros. Neste modelo, a dstrbução estatístca do grau de centraldade dos nós da rede tende a segur uma le de potênca, onde um número muto pequeno de nós concentra mutas lgações (alto degree centralty) e um grande número de nós possu pouquíssmas lgações (baxo degree centralty). Tal modelo é consderado um modelo power-law ustamente pelo fato de produzr uma dstrbução estatístca de graus de centraldade que segue uma le de potênca. As redes que seguem essa dstrbução são conhecdas como redes lvres de escala (scale-free networks). Alguns modelos matemátcos se mostraram adequados para representação de redes reas. Estudos demonstram que a nternet (FALOUTSOS et al., 1999), a Web (ADAMIC, 1999), as redes de colaboração centífca (NEWMAN, 2001) e as redes de correspondênca eletrônca (EBEL et al., 2002) apresentam característcas de redes do tpo mundo-pequeno, ou sea, baxo dâmetro e alto coefcente de agrupamento, e são de fato redes lvres de escala com a dstrbução estatístca dos graus de centraldade dos nós segundo uma le de potênca. 3.2. Métrcas de Rede Dversas são as métrcas adotadas por pesqusadores para a abordagem de seus problemas. Exstem métrcas relaconadas ao tamanho, aos níves de conectvdade e transtvdade, ao grau de mscgenação e à estrutura comuntára das redes (NEWMAN, 2003). Não obstante a sso, novas métrcas surgem à medda que surgem também novos problemas a serem equaconados. No entanto, exste um conunto de métrcas formalmente estabelecdas e co- 7 Redes onde cada nó está conectado a um número k fxo de vznhos.

mumente utlzadas no estudo e resolução de grande parte dos problemas envolvendo redes complexas, sobre as quas cabe uma breve explcação. Consdere um grafo não dreconado G(N, L), onde N representa o conunto de nós do grafo, sendo defndo por N = n 1, n 2,..., n g e L representa o conunto de lgações entre pares de nós no grafo, sendo defndo por L = {l 1, l 2,..., l h }. Consdere anda que g represente o número de nós do grafo e h represente o número de lgações entre pares de nós. Cada lgação em L pode ser representada por: l k ( n, n 1 k h ) 1 g 1 g Sendo assm, l k corresponde a uma lgação dedcada a conectar o nó n ao n. Consdere também que o número de nós adacentes (que possuem conexão) a um nó n específco é representado por d(n ). 3.2.1. Dâmetro da Rede O dâmetro da rede (D) é uma medda de tamanho que ndca a dstânca geodésca (geodesc dstance) entre os pares de nós conectados na rede. Em redes com apenas um componente, consderando p como a dstânca geodésca entre e, o valor do dâmetro pode ser expresso da segunte forma: 1 D g( g 1) / 2 p Geralmente o camnho mínmo (shortest path) entre dos nós, ou sea, o menor número de lgações necessáras para sar de um nó e alcançar outro na rede, é consderado como a dstânca geodésca entre eles. Em redes com mas de um componente, a defnção de tal métrca pode se tornar um problema. NEWMAN (2003) apresenta uma solução vável para sua resolução. 3.2.2. Meddas de Centraldade As meddas de centraldade ndcam o grau de conectvdade dreta entre nós da rede. Dentre as dferentes meddas de centraldade presentes na lteratura, destacam-se:

Grau de Centraldade (DCE): Número de conexões (de entrada e saída) de cada nó. Equvale ao número de nós adacentes a um nó e seu valor é dado por DCE n ) d( n ). Consderando ( n max como o nó de maor grau de centraldade na rede, a medda normalzada é dada por: NDCE( n ) DCE( n ) DCE( ) Grau de Intermedação (BCE): Equvale ao número de dstâncas geodéscas entre quasquer dos nós da rede que passam por um nó específco. Tal medda ndca o quanto um nó está no camnho mínmo entre outros dos pares de nós. Sea p k o número de dstâncas geodéscas que lgam os nós e k, e p k (n ) o número de dstâncas geodéscas que passam pelo nó n. O grau de ntermedação é dado por: BCE( n ) Consderando n max como o nó de maor grau de ntermedação na rede, a medda normalzada é dada por: NBCE( n ) k p k p n max ( n ) k BCE( n ) BCE( ) Grau de Proxmdade (CCE): Inverso da soma das dstâncas geodéscas entre cada nó da rede e os demas. Indca o quão próxmo um nó da rede está dos demas. Consderando mas uma vez p como a dstânca geodésca entre e, o valor do grau de proxmdade pode ser expresso da segunte forma: n max ( ) g CCE n p 1 1 Consderando n max como o nó de maor grau de proxmdade na rede, a medda normalzada é dada por: NCCE( n ) CCE( n ) CCE( ) n max 3.2.3. Meddas de Transtvdade

As meddas de transtvdade ndcam o grau de conectvdade ndreta, ou sea, entre vznho, da rede. Dentre as dferentes meddas de transtvdade presentes na lteratura, destaca-se: Coefcente de Agrupamento (CC1): Indca a probabldade dos vznhos de um nó da rede se conectarem entre s. Consderando N o conunto de nós vznhos ao nó, k o número de vznhos de e c k = 1 ou 0 caso exsta ou não uma lgação entre e k desde que, k N, o valor do coefcente de agrupamento pode ser expresso por: CC 1( n ) k ( k k c k 1)/ 2 Consderando n max como o nó de maor coefcente de agrupamento na rede, a medda normalzada é dada por: CC1( n ) NCC1( n ) CC1( ) n max 4. MEDIDAS DE INFLUÊNCIA O prncpal obetvo dos sstemas de recuperação de nformação é atender as necessdades de nformação dos usuáros com desempenho satsfatóro, o que pode ser traduzdo em oferecer obetos nformaconas, tas como documentos, magens, áudo e vídeos, mas relevantes e, em tempo adequado. Dessa forma, os sstemas de recuperação de nformação modelam as necessdades de nformação dos usuáros sob a forma de consultas que, posterormente, serão remodeladas dentro de um espaço específco (booleano, vetoral ou probablístco) e comparadas aos obetos presentes na coleção. Especfcamente no modelo vetoral de recuperação, as consultas e os documentos são representados como vetores de termos, sendo que a smlardade entre eles é dada pelo grau de proxmdade entre os vetores, meddo pelo coseno do ângulo formado entre eles. Tal medda é utlzada para atrbução do grau de relevânca de um documento em relação a uma consulta. Dessa forma, o grau de nfluênca dos termos nos documentos e na coleção exerce papel fundamental no estabelecmento de funções de cálculo de smlardade. Entende-se por grau de nfluênca, ou peso, de um termo, a sua capacdade medda de descrever o conteúdo de um

documento. Em um documento exstem termos que carregam maor sgnfcado que outros e, por essa razão, são capazes de descrever de manera mas fdedgna o seu conteúdo. Dversos pesqusadores propuseram funções para cálculo de smlardade (SALTON; LESK, 1968; SALTON; BUCKLEY, 1988; SINGHAL et al., 1996, ZOBEL; MOFFAT, 1998). No entanto, em sua grande maora, as funções se baseam em crtéros de freqüênca - número de ocorrêncas do termo no documento - para o estabelecmento do peso de um termo em um documento. Uma nstânca bastante conhecda desta classe de funções, o TF IDF (BAEZA-YATES; RIBEIRO-NETO, 1999), estabelece que a smlardade entre as consultas e os documentos pode ser obtda através da função d sm( d, q) d q q t t 1 1,, q onde sm(d, q) representa o grau de smlardade entre o documento e a consulta q, w, representa o peso do termo no documento, w,q representa o peso do termo na consulta q, e t representa o número de termos comuns à consulta e ao documento. Quanto maor o grau de smlardade, mas relevante será consderado o documento em relação à consulta, sendo que esta medda será utlzada para ordenamento de resultados. O esquema de atrbução de peso aos termos nos documentos descrto pelos autores é dado por w w w 2, w t 1 w 2, q, f, df onde f, é a freqüênca do termo no documento, e df é a freqüênca nvertda do termo nos documentos da coleção: f, freq, max freq l l, df log N n Nas funções acma, freq, corresponde ao número de ocorrêncas do termo no documento, max l freq l, corresponde ao número de ocorrêncas do termo l no documento, sendo l o termo que mas vezes ocorreu no documento, N corresponde ao número total de documentos na coleção e n corresponde ao número de documentos da coleção em que o termo ocorre.

Almeda et al. (2007) apresentam dversos componentes consderados em dferentes esquemas de atrbução de pesos. Em todos eles a freqüênca do termo no documento é o prncpal fator de nfluênca do termo no documento e na coleção. 5. ABORDAGEM A abordagem proposta se basea na representação de documentos como redes complexas de palavras, ou termos, tal qual descrto por Cancho e Solé (2001), Cancho et al. (2004), Cancho (2005), Solé et al. (2005) e Dorogovtsev e Mendes (2001). Tal forma de representação permte o estabelecmento de relações entre termos possbltando a extração de métrcas de rede a serem utlzadas para atrbução do grau de mportânca dos termos nos documentos. De acordo com Solé et al. (2005) exstem duas formas de construção de redes de termos: partndo das relações semântcas ou das relações sntátcas exstentes entre eles. É possível, por exemplo, construr uma rede de termos relaconados sntatcamente a partr da relação de co-ocorrênca de pares de termos em frases, ou mesmo a partr da relação de dstânca entre eles dentro dos documentos. Da mesma forma, é possível construr uma rede de termos relaconados semantcamente a partr da extração e correlação de sntagmas dos documentos ou da extração de relações entre termos de thesaurus preconcebdos. Na presente abordagem são utlzadas relações sntátcas para construção da rede complexa de palavras. Cada documento se consttu em uma rede dstnta, onde cada termo se torna um nó e a dstânca entre eles dentro do documento se torna fator defndor de suas lgações. Mas especfcamente, dos termos estão lgados na rede se a dstânca entre eles no documento for menor ou gual a uma dstânca máxma predetermnada. O grafo resultante é não dreconado (sem orentação) e não ponderado (com lgações sem valores), o que sgnfca que as relações entre os termos são mútuas - se A está à dstânca x de B, B está à dstânca x de A - e que múltplas ocorrêncas de lgações entre eles não são consderadas. A fgura 1 exemplfca o esquema utlzado para representação de um documento como uma rede, em forma de grafo. Partndo de uma coleção C contendo N documentos, obtém-se uma coleção G de grafos não dreconados, sendo G o grafo representatvo do documento da coleção. Para cada grafo da coleção são extraídas as métrcas normalzadas de centraldade e de transtvdade.

Assm sendo, para cada nó pertencente ao grafo G temos as métrcas NDCE,, NBCE,, NCCE,, e NCC1, representando, respectvamente, o grau de centraldade, o grau de ntermedação, o grau de proxmdade e o coefcente de agrupamento do nó no grafo G. FIGURA 1 - Rede de termos relaconados sntatcamente pelo crtéro de dstânca máxma (d) com d = 2. Fonte: o autor. Assm como o TF é utlzado no modelo vetoral para estabelecmento do peso de um termo em um documento ou consulta, tas meddas são utlzadas, uma a uma, dentro da abordagem proposta com o mesmo propósto. Dessa forma, além da função utlzada tradconalmente no método TF IDF, quatro novas funções serão utlzadas para a atrbução de pesos: Para a função que utlza a freqüênca do termo, denomnada TF IDF temos w, f, df, tal qual defndo na sessão 4. Para a função que utlza o grau de centraldade, denomnada NDCE IDF temos w, NDCE, df. Para a função que utlza o grau de ntermedação, denomnada NBCE IDF temos w, NBCE, df. Para a função que utlza o grau de proxmdade, denomnada NCCE IDF temos w, NCCE, df. E,

fnalmente, para a função que utlza o coefcente de agrupamento, denomnada NCC1 IDF temos w, NCC1, df. A adoção desta abordagem para cálculo de pesos permtrá avalar, para uma determnada coleção de documentos e consultas, o quão boa é cada métrca de rede, soladamente, para substtução da freqüênca enquanto ndcador de nfluênca dos termos em documentos.

6. EXPERIMENTO E RESULTADOS Para realzação dos expermentos, a coleção CACM (FOX, 1983), composta por 3.204 documentos publcados no Communcatons of ACM ournal de 1958 a 1979, fo utlzada. Nela encontram-se dsponíves 52 consultas com uma méda de 15 resultados relevantes para cada consulta. Antes da efetva representação dos documentos como redes, fo necessáro realzar tratamento ao conteúdo dos documentos da coleção. Snas de acentuação, caracteres especas e termos compostos de apenas uma letra foram descartados dos documentos. O vocabuláro obtdo pelo processamento da coleção contém 11.819 termos. A dstânca máxma (d) consderada para o estabelecmento de lgações entre termos fo d = 2. Os 3.204 grafos gerados possuem, em méda, 38 nós e 102 lgações. O grafo de menor tamanho possu dos nós e uma lgação entre eles, enquanto que o grafo de maor tamanho possu 249 nós e 737 lgações. TABELA 1 - Precsão Interpolada em cada nível de revocação resultantes do processamento das 52 consultas utlzando cada uma das 5 funções de atrbução de pesos descrtas na sessão 5 Revocação Precsão Interpolada (%) (%) TF-IDF NDCE-IDF NBCE-IDF NCCE-IDF NCC1-IDF 0 65,78 57,62 54,04 42,75 31,48 10 51,71 48,23 39,49 35,22 22,46 20 43,11 37,48 30,51 29,67 18,16 30 35,03 32,02 21,85 24,35 14,86 40 29,09 26,23 16,53 21,63 11,48 50 23,42 21,81 12,07 17,94 8,64 60 15,96 15,85 9,16 15,61 6,43 70 11,98 11,43 6,59 9,26 4,59 80 8,75 8,79 5,24 7,30 3,71 90 5,74 5,57 3,69 5,17 3,16 100 5,69 5,54 3,69 4,85 3,14 Fonte: o autor. Tal como recomendado por Baeza-Yates e Rbero-Neto (1999), os resultados apresentados na tabela 1, também foram apresentados em um gráfco, uma vez que a análse gráfca faclta a avalação da efcênca de um método de recuperação em comparação aos outros. Especfcamente nesta abordagem, as varações metodológcas resdem apenas na mudança da função de atrbução de pesos. Sendo assm, a análse do gráfco 1 permte avalar o nível de efcênca de cada função de atrbução proposta.

Precsão Interpolada (%) 70 60 50 40 30 20 TF-IDF NDCE-IDF NBCE-IDF NCCE-IDF NCC1-IDF 10 0 0 10 20 30 40 50 60 70 80 90 100 Revocação (%) GRÁFICO 1 - Precsão Interpolada versus Revocação resultantes do processamento das 52 consultas utlzando cada uma das 5 funções de atrbução de pesos descrtas na sessão 5. Fonte: o autor. No gráfco 1, é possível observar que a abordagem que apresentou melhores resultados fo a que utlzou o TF IDF como método para atrbução de pesos a termos em documentos, seguda de NDCE IDF. A que apresentou pores resultados fo a NCC1 IDF. As abordagens NBCE IDF e NCCE IDF apresentaram resultados ntermedáros. Cabe salentar que a abordagem NBCE IDF se sau melhor a uma revocação de até 24%, apresentando taxas de precsão melhores nesta faxa. No entanto, os resultados poraram sgnfcatvamente após esta faxa, tendo se aproxmado da por abordagem (NCC1 IDF). Já a abordagem NCCE IDF, apesar de apresentar taxas de precsão pores que a NBCE IDF a uma revocação nferor a 24%, se aproxmou dos resultados de TF IDF e NDCE IDF a taxas de revocação maores.importante também destacar que as abordagens TF IDF e NDCE IDF se equvalem a taxas de revocação superores a 60%. 7. CONCLUSÃO Mesmo refutando-se a hpótese de que o uso de algumas métrcas de redes complexas, soladamente, pudesse substtur com maor efcênca a medda de freqüênca nas fórmulas de

atrbução de pesos a termos em documentos do esquema TF IDF, exstem evdêncas de que uma composção entre tas métrcas possa proporconar melhores resultados. Aparentemente, termos com maor grau de nfluênca apresentam, em méda, graus de proxmdade mas elevados e baxos coefcentes de agrupamento. Além dsso, o mecansmo para atrbução de pesos utlzado no modelo vetoral, que consdera a freqüênca nvertda do termo (IDF), pode ser naproprado para ser usado em conunto com métrcas de redes complexas, o que demanda pesqusa na construção e avalação de novos mecansmos. Destaca-se anda a necessdade de pesqusas no campo da dentfcação e caracterzação de elementos lngüístcos em redes de termos a fm de se dentfcar padrões de relaconamentos sntátcos e semântcos para, a partr daí, utlzar tas padrões para correlaconar métrcas de rede. Cabe ressaltar que não foram avaladas relações semântcas e outros tpos de relações sntátcas entre termos. Varações nas dstâncas máxmas utlzadas para o estabelecmento de relações sntátcas entre termos também podem ser consderadas. A construção de um novo modelo de recuperação baseado num espaço vetoral multdmensonal onde consultas e documentos possam ser representados como grafos e, funções de cálculos de smlardades entre grafos possam ser utlzadas, se apresenta como um camnho a ser explorado. Abstract: In the last years, the nformaton retreval feld has receved much attenton from the world scentfc communty. Research on the mprovement of methods and algorthms for textual nformaton retreval has ncreased, largely concentrated n the mprovement of vector model, especally n effcent methods and functons for smlarty calculaton between documents and queres. In parallel, the networks analyss subect has attracted the nterest of the scentfc communty due to ts ablty to represent complex ssues n an obectve manner, offerng a theoretcal and practcal approach for the study of the propertes and behavor of the elements and relatons of whch problems are made. Recently, research papers consderng documents as word complex networks has been developed. However, usng ths approach to solve nformaton retreval and classfcaton problems has been under-exploted. Ths paper presents an approach, based on metrcs of complex networks, that obtan functons to assgn weghts to terms n documents. The approach performs as well as a vector model based approach, when appled to estmate the smlarty between documents and queres from a reference collecton. Ths demonstrates the applcablty of the metrcs of word complex networks n nformaton retreval problems. Keywords: Informaton retreval, complex networks, word networks, network metrcs.

REFERÊNCIAS ADAMIC, L. A. The Small World Web. In: EUROPEAN CONFERENCE ON RESEARCH AND ADVANVED TECHNOLOGY FOR DIGITAL LIBRARIES, 3., 1999, Pars. Anas London: Sprnger-Verlag, 1999. p. 443-452. ALMEIDA, H. M.; GONÇALVES, M. A.; CRISTO, M.; CALADO, P. A combned component approach for fndng collecton-adapted rankng functons based on genetc programmng. In: INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DE- VELOPMENT IN INFORMATION RETRIEVAL, 30., 2007, Amsterdam. Anas New York: ACM, 2007. p. 399-406. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Informaton Retreval. 1. ed. New York: Addson Wesley, 1999. 544 p. BARABÁSI, A.; ALBERT, R. Emergence of scalng n random networks. Scence, New York, v. 286, n. 5439, p. 509-512, out. 1999. BONACICH, P. Factorng and weghtng approaches to status scores and clque dentfcaton. Journal of Mathematcal Socology, Phladelpha, v. 2, n. 1, p. 113-120, 1972. BRANDE, U.; HOEFER, M.; LERNER, J. WordSpace - Vsual Summary of Text Corpora. In: INTERNATIONAL SYMPOSIUM ON ELETRONIC IMAGING, 18., 2006, San Jose. Anas [S. I. : s. n.], 2006. p. 212-223. BRANDES, U.; CORNELSEN, S. Vsual Rankng of Lnk Structures. In: INTERNATION- AL WORKSHOP ON ALGORITHMS AND DATA STRUCTURE, 7., 2001, Provdence. Anas London: Sprnger-Verlag, Brown Unversty, 2001. 11 p. BURGESS, M.;; CANRIGHT G.;; ENGǾ-MONSEN, K. Importance-rankng functons derved from the egenvectors of drected graphs. [S. I. : s. n.], 2006, 38 p. (DELIS Techncal Report DL-TR-0325). CANCHO, R. F.; SOLÉ, R. V. The Small World of Human Language. The Royal Socety B, London, v. 268, p. 2261-2266, 2001. CANCHO, R. F.; SOLÉ, R. V.; KÖHLER, R. Patterns n syntactc dependency networks. Physcal Revew, [S. I.], v. 69, p. 8, 2004. CANCHO, R. F. The structure of syntactc dependency networks: nsghts from recent advances n network theory. In: ALTMMAN, G.; LEVICKIJ, V.; PEREBYINIS, V. The Problems of quanttatve lngustcs, Chernvts: Ruta, 2005. p.60-75. CHITRAPURA, K. P.; KASHYAP, S. R. Node Rankng In Labeled Drected Graphs. In: ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 13., 2004, Washngton. Anas NewYork: ACM, 2004. p. 597-606. DOROGOVTSEV, S. N.; MENDES, J. F. F. Language as an Evolvng Word Web. The Royal Socety B, London, v. 268, p. 2603-2606, 2001.

EBEL, H.; MIELSCH, L.; BORNHOLDT, S. Scale-free topology of e-mal networks. Physcal Revew, [s. n.], v. 66, n.3, p. 4, 2002. ERDÖS, P.; RÉNYI, A. On random graphs. Publcatones Mathematcae, Debrecen, v. 6, p. 290-297, 1959.. On the evoluton of random graphs. Publcatons of the Mathematcal Insttute of the Hungaran Academy of Scences, [s. n.], v. 5, p. 17-61, 1960. ERKAN, G.; RADEV, D. R. LexPageRank: Prestge n Mult-Document Text Summarzaton. In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2004, BARCELONA. Anas [S. I. : s. n.], 2004. p. 365-371.. LexRank: Graph-based lexcal centralty as salence n text summarzaton. Journal of Artfcal Intellgence Research, AI Access Foundaton, v. 22, n. 1, p. 457-479, 2004. FALOUTSOS, M.; FALOUTSOS, P.; FALOUTSOS, C. On power-law relatonshps of the Internet topology. In: CONFERENCE ON APPLICATIONS, TECHNOLOGIES, ARCHI- TECTURES, AND PROTOCOLS FOR COMPUTER COMMUNICATION, 1999, Cambrdge. Anas New York: ACM, 1999. p. 251-262. FOX, E. Characterzaton of two new expermental collectons n computer and nformaton scence contanng textual and bblographcal concepts. Cornell: Cornell Unversty, 1983, 67 p. (Techncal Report TR83-561). GUARE, J. Sx Degrees of Separaton: A Play. New York: Vntage, 1990. 73 p. HUANG, X.; LAI, We. NodeRank: A New Structure Based Approach to Informaton Flterng. In: INTERNATIONAL CONFERENCE ON INTERNET COMPUTING, 2003, Las Vegas. Anas [S. I.]: CSREA Press, 2003. p. 167-173. KLEINBERG, J. M. et al. The Web as a graph: Measurements, models and methods. In: IN- TERNATIONAL CONFERENCE ON COMBINATORICS AND COMPUTING, 5., 1999, Tokyo. Anas Berln: Sprnger, 1999. p. 1-17. KLEINBERG, J. M. Navgaton n a small world. Nature, [S. I.], v. 406, p. 845, 2000.. The small-world phenomenon: An algorthmc perspectve. In: ACM SYMPOSIUM ON THEORY OF COMPUTING, 32., 2000, Portland. Anas New York: ACM, 2000, p. 163-170. KORFIATIS, N.; SICILIA, M.; HESS, C.; STEIN, K.; SCHLIEDER, C. Socal Network Models for Enhancng Reference Based Search Engne Rankngs. In: GOH, D.; FOO, S. Socal Informaton Retreval Systems: Emergng Technologes and Applcatons for Searchng the Web Effectvely, 1. ed., [S. I.]: Idea Group Inc., 2007, p. 87-107. KURLAND, O.; LEE, L. PageRank wthout hyperlnks: Structural re-rankng usng lnks nduced by language models. In: INTERNATIONAL ACM SIGIR CONFERENCE ON RE- SEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 28., 2005, Salvador. Anas New York: ACM, 2005. p. 306-313. MONTES-Y-GÓMES, M.; LÓPEZ-LÓPEZ, A.; GELBUKH, A. Informaton Retreval wth Conceptual Graph Matchng. In: INTERNATIONAL CONFERENCE ON DATABASE