UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CIÊNCIAS NATURIAS E EXATAS MATEMÁTICA BACHARELADO CADEIAS DE MARKOV E APLICAÇÕES TRABALHO DE GRADUAÇÃO Fernanda Alves Lamberti Santa Maria, RS, Brasil 205
CADEIAS DE MARKOV E APLICAÇÕES Fernanda Alves Lamberti Trabalho de Graduação apresentado ao Curso de Matemática Bacharelado da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para a obtenção do grau de Bcharelado-Matemática Orientador: Professor Dr. João Roberto Lazzarin Santa Maria, RS, Brasil 205
Universidade Federal de Santa Maria Centro de Ciências Naturias e Exatas Matemática Bacharelado A Comissão Examinadora, abaixo assinada, aprova o Trabalho de Graduação CADEIAS DE MARKOV E APLICAÇÕES elaborado por Fernanda Alves Lamberti como requisito parcial para obtenção do grau de Bcharelado-Matemática COMISSÃO EXAMINADORA: João Roberto Lazzarin, Dr. (Presidente/Orientador) Lidiane Buligon, Dra. (CCNE-UFSM) Karine Faverzani Magnago, Dra. (CCNE-UFSM) Santa Maria, 03 de Dezembro de 205.
AGRADECIMENTOS Agradeço à todos que de alguma forma contribuiram para meu crescimento. Ao meu orientador João Lazzarin, por ter aceito participar deste trabalho. Aos meus pais, Hellen e Gercimar, por terem me ajudado nos melhores e piores momentos. Ao meu irmão, Lucas, por estar ao meu lado e por toda a ajuda. Ao meu noivo, Jaldecir, por ter me apoiado e pelas muitas palavras de insentivo nos momentos que pensei em desistir. À todos estes, o meu muito obrigado. Este trabalho só foi possível por vocês.
RESUMO Trabalho de Graduação Matemática Bacharelado Universidade Federal de Santa Maria CADEIAS DE MARKOV E APLICAÇÕES AUTORA: FERNANDA ALVES LAMBERTI ORIENTADOR: JOÃO ROBERTO LAZZARIN Local da Defesa e Data: Santa Maria, 03 de Dezembro de 205. Atualmente a internet tem feito parte do dia-a-dia da maioria das pessoas. Ferramentas simples como as da Álgebra Linear podem contribuir muito no uso de sites de busca. As Cadeias de Markov são exemplos disso. Com algumas definições importantes e alguns teoremas podemos formar uma base para um algoritmo de grande utilizade, o PageRank. Palavras-chave: Cadeias de Markov. Álgebra Linear. PageRank.
ABSTRACT Undergraduate Final Work Graduate Program in Mathematics Federal University of Santa Maria CHAIN MARKOV AND APPLICATIONS AUTHOR: FERNANDA ALVES LAMBERTI ADVISOR: JOÃO ROBERTO LAZZARIN Defense Place and Date: Santa Maria, December 03 st, 205. Today the internet has been part of day-to-day life of most people. Simple tools such as the linear algebra can go a long way in the use of search engines. The Markov chains are examples. With some important definitions and some theorems we can form a basis for a big plus algorithm, PageRank. Keywords: Markov chain, linear algebra, PageRank.
SUMÁRIO PRÉ-REQUISITOS E DEFINIÇÕES.............................................. 8. Autovalores e Autovetores....................................................... 8.2 PROCESSOS ESTOCÁSTICOS................................................. 9.3 PROCESSOS MARKOVIANOS................................................. 0.4 CADEIAS DE MARKOV.........................................................5 MATRIZES DE TRANSIÇÃO....................................................6 CADEIAS DE MARKOV REGULARES......................................... 3.6. CONVERGÊNCIA DE UMA MATRIZ DE TRANSIÇÃO........................ 4 2 O QUE É A MÉTRICA PAGERANK E COMO FUNCIONA...................... 7 2.0.2 Fator de amortecimento.......................................................... 7 2.0.3 Cálculo interativo................................................................ 20 2.0.4 Ilustrando o método............................................................. 2 2. Casos em que o método pode não dar certo....................................... 24 2.. Caso : Rede simples............................................................ 25 2..2 Caso 2: Ciclo.................................................................... 26 2..3 Caso 3: Páginas sem ligação..................................................... 28 3 CONCLUSÃO..................................................................... 29 REFERÊNCIAS..................................................................... 30
8 PRÉ-REQUISITOS E DEFINIÇÕES Neste capítulo iremos apresentar alguns dos conceitos necessários para entender o algoritmo PageRank, iniciaremos com as definições de Processos Estocásticos, Cadeias de Markov e resultados de convergência de matrizes, como citado anteriormente, é necessário um conhecimento básico de matrizes, probabilidade e conjuntos. Não entraremos em detalhes no que seja probabilidade, porém, em termos informais, a probabilidade de um experimento ou de uma observação produzir um certo resultado é aproximadamente a fração de vezes durante a qual esse resultado ocorreria se o experimento fosse repetido muitas vezes sob condições constantes; quanto maior o número de repetições, mais preciso ficará esse valor. Também usaremos o termo evento de modo informal, que servirá para indicar todo fenômeno que pode ser observado e analisado seus possíveis resultados, exemplos destes fenômenos podem ser atirar uma moeda (podemos observar se cairá cara ou coroa), jogar um dado de seis faces e observar qual ficará virada para cima, a quantidade de produtos em uma loja, o número de alunos de uma sala de aula e, no nosso caso, a chance de partindo de clicks aleatórios, chegar a um determinado site. Também usaremos livremente o termo vetorprobabilidade para toda matriz-linha em que a soma de todos elementos desta linha tem soma igual a.. Autovalores e Autovetores Lembremos da Álgebra Linear que toda matriz quadrada A n n satifaz a seguinte igualdade
9 XA = XIλ Onde X n é chamado de autovetor e λ é chamado de autovalor..2 PROCESSOS ESTOCÁSTICOS Um Processo Estocástico é qualquer evento que varia aleatoriamente com o passar do tempo, chamamos a variável correspondente ao tempo de t e o valor associado ao evento no tempo t de x(t) (para mais detalhes ver (3) ). Exemplo.2. Consideremos t o período em semanas, e x(t) a quantidade de produtos no estoque de uma loja, ao findar de cada período. Se no início da observação temos 4 produtos no estoque, ao passar de uma semana temos 9, ao passar da segunda semana temos 22, podemos fazer a seguinte associação: t(semanas) 0 2 x(t)(peças) 4 9 22 Quando os valores de x(t) se encontram em um conjunto enumerável ou finito, dizemos que o evento tem estado discreto, portanto nosso Processo Estocástico tem estado discreto, caso contrário, dizemos ter estado contínuo. Exemplo.2.2 Conseidere x(t) o número de alunos na disciplina de TCC I a cada ano, em uma determinada Universidade. Notemos que se trata de um estado discreto (quando se refere ao número de pessoas se usa os números naturais, logo se trata de um conjunto enumerável) e tempo discreto (o número de anos também se dá por números naturais). Tomando por t 0 = 0 o ano de 200, se no ano de 200 a turma tinha 5 alunos, ao passar de um ano aumentou 5 alunos, no ano seguinte diminuiu 3, no próximo, 203, 2 alunos a mais que no ano anterior, e
0 nos próximos 2 anos, a turma aumentou aluno a cada ano. Portanto temos t(anos) 0 2 3 4 x(t)(pessoas) 5 20 7 9 20 Exemplo.2.3 Em uma viagem entre Santa Maria e Porto Alegre, supondo que t esteja representado em horas, analisando a velocidade x(t), obtemos os seguintes valores: t(h), 5 2, 4 3, 4 x(t)(km) 60 66, 33 54 73 Note que os valores de t encontram-se em um subconjunto finito dos números reais positivos, pois a viagem terá um tempo definido e os valores de x(t) também, desde que a velocidade de um carro é limitada. Portanto, podemos dizer que nosso Processo Estocástico apresenta estado e tempo discretos..3 PROCESSOS MARKOVIANOS Um Processo se diz Markoviano (em homenagem a Andrei Andrevevich Markov) quando o estado futuro depende apenas do estado anterior, ou seja, os estados passados não exercem influência alguma. Processos deste tipo são chamados de processos sem memória (memoryless process). As probabilidades condicionais representam a probabilidade do estado x(t k + ) ser x k+ no instante t k +, dado que o estado x(t k ) é x k em t k ((6), 2009). Por exemplo, se no tempo t =, o estado é A e no tempo t = 2, o estado é A + 3, denotamos x() = A e x(2) = A + 3, poderíamos deduzir que x(t) = x(t ) + 3 e assim x(t) depende apenas do estado anterior, o que nos leva a um processo sem memória, isto é, a um Processo Markoviano. Exemplo.3. A quantidade de um determinado produto no estoque de uma loja, ao fim de cada dia, sabendo que são vendidos 50 produtos por dia e adquiridos 66 produtos por dia é um
Processo Markoviano, pois a quantidade de produtos depende apenas da quantidade anterior e do que foi adquirido ou vendido nesse intervalo de tempo..4 CADEIAS DE MARKOV 2009). Processo Markoviano é dito uma Cadeia de Markov quando o estado é discreto ((6), Exemplo.4. Saldo (em reais) de uma conta no banco, de uma determinada pessoa num período de tempo em semanas é uma Cadeia de Markov, pois o estado é discreto (valores em reais são enumeráveis). Por exemplo, na semana temos R$500, 00 de saldo em conta. Na semana 2 tivemos um aumento de R$00, 00 ao saldo anterior. Na semana 3 temos uma redução de R$75, 00. E assim podemos dizer que t(semanas) 2 3 x(t)(reais) 500 600 425 Exemplo.4.2 Seja x(t) = x(t ) a função que descreve os valores de x no tempo t, e 2 x(0) = x 0 N. Notemos que x(t) descreve uma Cadeia de Markov, pois é um evento que varia conforme o tempo, só depende do estado anterior, e tem estado discreto..5 MATRIZES DE TRANSIÇÃO Consideremos um vetor-probabilidade num processo estocástico que é denotado por [ x(t) = ] x (t) x 2 (t) x n (t)
2 em que x i (t) é a probabilidade com que o sistema esteja no estado i no instante t, para i =, 2,..., n. Vale lembrar que n x i (t) =. i= Uma Matriz de Transição é uma matriz quadrada de ordem P n n = (p ij ) onde cada p ij é a probabilidade de que haja uma transição do estado i para o estado j ((6), 2009). No caso das Cadeias de Markov, quando o evento varia do estado i para o estado j, num determinado tempo t. A cada cadeia de Markov, podemos associar uma matriz de transição P conforme vemos no próximo exemplo. Exemplo.5. Numa determinada loja temos três produtos a venda do mesmo setor, a cada período de uma semana podemos notar que 50% dos compradores continuam comprando o mesmo produto. Dos que compravam o produto, 20% passam a comprar o produto 2 e 30% o produto 3. Dos que compravam o produto 2, 0% passam a comprar o produto e 40% passam a comprar o produto 3. E dos que compravam o produto 3, 30% passam a comprar o produto e 20% passam a comprar o produto 2. Podemos notar que é uma Cadeia de Markov, pois o estado futuro depende do estado anterior, que o estado é discreto, pois a quantidade de valores é finita, já que vamos observar uma quantidade finita de clientes. Podemos descrever tal evento utilizando uma matriz (a ij ) 3 3, onde a ij representa a probabilidade de um comprador do produto i trocar para o produto j. Assim 0, 5 0, 3 0, 2 P = 0, 0, 5 0, 4 0, 3 0, 2 0, 5 Analisando 50 compradores destes produtos, vemos que, inicialmente, 20 compravam o produto, 5 compravam o produto 2, e 5 o produto 3. Para saber a quantidade de clientes que
3 compram cada produto fazemos a multiplicação da matriz com a quantidade de compradores inicialmente pela matriz de transição montada acima: 0, 5 0, 3 0, 2 [ ] [ 20 5 5 0, 0, 5 0, 4 = 0, 3 0, 2 0, 5 6 6, 5 7, 5 ]. Temos então, em média, 6 compradores do produto, 6, 5 compradores do produto 2 e 7, 5 compradores do produto 3, depois de uma semana..6 CADEIAS DE MARKOV REGULARES Uma Cadeia de Markov ou sua matriz de transição P é dita ser regular se existir uma potência inteira positiva n tal que P n tenha todas as entradas positivas ((8), 200). 0, 0, 7 0, 2 Exemplo.6. a matriz 0, 3 0, 05 0, 65 tem todas as entradas positivas para qualquer 0, 6 0, 05 0, 35 n, logo é uma matriz de transição regular. 0, 3 0, 2 0 0, 5 0 0, 3 0, 3 0, 4 Exemplo.6.2 Considere a matriz A =. 0, 6 0 0 0, 4 0, 4 0, 3 0 0, 3 0, 29 0, 27 0, 06 0, 38 0, 275 0, 253 0, 08 0, 39 0, 34 0, 2 0, 09 0, 36 0, 3 0, 239 0, 063 0, 398 Temos que A 2 = e A 3 =. 0, 34 0, 24 0 0, 42 0, 27 0, 266 0, 072 0, 392 0, 24 0, 26 0, 09 0, 4 0, 29 0, 249 0, 078 0, 383 Note que A e A 2 tem entradas iguais a zero, porém A 3 já não apresenta entradas nulas, portanto, desde que a soma dos elementos das linhas de A resulta em, temos que A é uma matriz de transição regular.
4.6. CONVERGÊNCIA DE UMA MATRIZ DE TRANSIÇÃO Nosso ojetivo é provar uma versão Markoviana do teorema de Perron-Frobenius (ver referência (5)), antes porém, precisamos fixar algumas notações e resultados. Para a prova do Teorema precisaremos do seguinte resultado auxiliar: Lema.6.3 Seja M uma matriz de transição de uma cadeia de Markov, e x = (x i ) R n. Se y = xm, então n y i i= n i= x i. Se a matriz M tiver todas as entradas positivas e duas coordenadas x i 0 e x j 0 tais que x i x j / R +, então a desigualdade é estrita. Demonstração.6.4 observemos que n y j = n x a j + x 2 a 2j + + x n a nj j= j= ( n n ) ( n ) x a j + x 2 a 2j + + x n a nj = x a k + + x n a kn, j= ( ) k= k= n considerando que cada a kj = para j =, 2,..., n temos k=j n y j j= n xi i= Além disso, a desigualdade será estrita quando houver sinais trocados entre os termos x i distintos e não nulos como afirma o restante da hipótese. Teorema.6.5 (i) (Teorema de Perron-Frobenius, caso Markoviano) Seja M uma matriz de transição de uma cadeia de Markov, então (i) Se λ é autovalor de M, então λ ; (ii) λ = é autovalor de M. Demonstração.6.6 (i)seja u = (u, u 2,..., u n ) 0 um autovetor qualquer de M, com autovalor associado λ. isto é, um = λu assim, Pelo Lema acima, λ u i u i, o que
5 implica que λ. (ii) Lembrando que a soma de cada uma das linhas da matriz de transição vale, segue-se que [ ] [ M = ], o que prova o resultado afirmado. Teorema.6.7 Se P é uma matriz de transição de uma cadeia de Markov regular, então: (i) Existe um único vetor-probabilidade q tal que q.p = q; (ii) Para qualquer vetor-probabilidade inicial x 0, a sequência de vetores de estado x 0, x 0 P,..., x 0 P k tende a q como um limite, ou seja, x 0 P k q quando k. (O vetor q é chamado de vetor de estado estacionário). ((5), 20 ou (4)). Demonstração.6.8 A existência de q está garantida pelo Teorema anterior. A unicidade será mostrada depois. Vamos mostrar que x 0 P k q quando k. Como a cadeia é regular, existe r natural tal que P r tem todas as entradas positivas, ou seja, p r ij > 0, para todo i, j.. Para 0 < δ < temos que P r ij > δq. Agora, seja ε = δ e Π a matriz quadrada cujas linhas sejam iguais a q e considere a matriz Q tal que P r = ( ε)π + εq. k, temos que Note que MΠ = Π e ΠP = Π, assim, aplicando plicando o princípio de indução sobre P kr = ( ε k )Π + ε k Q k. Multiplicando a igualdade acima por P j para j N, temos P kr+j = ( ε k )ΠP j + ε k Q k P j.
6 Mas ΠP = Π e portanto ΠP j = Π, logo P kr+j = ( ε k )Π + ε k Q k P j ou P kr+j Π = ε k Π + ε k Q k P j ou ainda mais, P kr+j Π = ε k ( Q k P j Π ) lembrando que A = sup x R x =, temos que P kr+j Π = ε k Q k P j Π ε k, agora, fazendo k obtemos que P kr+j q. Nos falta provar a unicidade de q, para isso basta supor que exista um q tal que q P = q,fazendo q P k, pelo fato de q P k = q teremos então que q = q. 0, 8 0, 2 Exemplo.6.9 A matriz de transição P de uma determinada cadeia de Markov é. 0, 9 0, Como as entradas são positivas temos que a cadeias de Markov é regular e, portanto, tem um único vetor de estado estacionário q. Então segundo o Teorema, para encontrarmos q observamos que qp = q 0 = q qp q(i P ) = 0, daí temos o seguinte sistema 0, 2q + 0, 9q 2 = 0 que resulta em q = 4, 5q 2. Como queremos que q seja um vetor probabilidade, temos ainda que = q + q 2 daí segue que q = 0, 82 e q 2 = 0, 8.
7 2 O QUE É A MÉTRICA PAGERANK E COMO FUNCIONA Neste capítulo iresmos apresentar como funcuina o algoritmo PageRank, dar um exemplo com um número razoável de páginas e mostrar os casos onde o algoritmo não funciona muito bem. A métrica apresenta a probabilidade de chegarmos a um determinado link clicando em links aleatórios, tal cálculo é feito através de iterações, que se observarmos as condições do Teorema.6.5, podemos obter um vetor-probabilidade que fornecerá os valores de PageRank que buscamos. Nosso próximo passo e estabelecer a matriz de transição de uma cadeia Markoviana obtida estabelecendo vetores-probabilidades em cada iteração que fornece o PageRank (índice que estabelece a importância deste site dentro da rede em que ele pertence) de vários sites que estejam lincados entre si. 2.0.2 Fator de amortecimento Além das conexões entre os sites de uma rede, muitas vezes é considerado o fato do navegador não utilizar as ligações entre os sites, pensando assim, leva-se em consideração um fator de amortecimento, que denotaremos por d, e que fornece a probabilidade do navegador seguir as ligações, portanto d será então a probabilidade do navegador não utilizar as ligações. O fator de amortecimento leva em consideração os seguintes pontos:. Uma página tem uma probabilidade de ser acessada por uma escolha aleatória pelo simples fato de existir; 2. Uma página isolada que não é indicada por nenhuma outra e indica todas as outras páginas
8 existentes na rede; 3. outros fatores. Levando em consideração os fatos listados, em geral utiliza-se o valor d = 0, 85 para o fator de amortecimento. Notemos que se o fator de amortecimento a ser considerado for muito pequeno, então a estrutura de links não tem muita força, ou seja, ela não nos mostra realmente quem é o mais ou menos importante. Consideraremos os seguinte caso ideal: uma rede com N páginas, sendo elas P, P 2, P 3,..., P N, onde cada P i indica ao menos uma outra página P j. Denotaremos por R o vetor-probabilidade que representa o valor de PageRank de cada uma das páginas num instante t, isto é [ R = P R(P ) P R(P 2 ) P R(P N ) ] (a notação P R vem de PageRank). Com o fator de amortecimento, o cálculo do valor de PageRank foi estabelecido por seus idealizadores pela seguinte fórmula: P R(P i ) = d N + d ( n j= onde L(P j ) é o número de ligações que saem da página j e (ver (9)). P R(P j )δ ij L(P j ) 0 se P i não é indica o P j ; δ ij = se P i indica o P j. A fórmula 2. fornece a seguinte interpretação matricial: ). (2.)
9 = [ d N + d ( n j= [ ] R = P R(P ) P R(P 2 ) P R(P N ) ) ( ) ( d + d n P R(P j )δ ij d N L(P j + d n ) N P R(P j )δ ij L(P j ) j= j= P R(P j )δ ij L(P j ) ) ] que portanto, utilizando a matriz (de transição) M N N = (m ij ), onde N é o número de páginas e m ij = l(p i, P j ) = δ ij L(P i definida por: ) 0, se nao existe referência da pag i para pag j; l(p i, P j ) = L(P i, se existe referência da pag i para j, ) onde L(P i ) é o número de ligações que saem da página i. Portanto, R pode ser obtido pela fórmula [ R = d d N N ] + dr l(p, P ) l(p, P 2 ) l(p, P N ) l(p 2, P ) l(p 2, P 2 ) l(p 2, P N )...... l(p N, P ) l(p N, P 2 ) l(p N, P N ) Se substituirmos por U = [,,...] o vetor com U em todas as colunas então pela igualdade acima temos: R = drm + d N U Sabendo que a soma dos valores de cada linha de R é, se tomarmos E como sendo a matriz N N com em todas as entradas, obtemos RE = U e assim rescrevemos a expressão anterior como R = drm + d N RE ou ( R = R dm + d N E ).
20 Segue-se que R é o autovetor associado ao autovalor autovalor da matriz Ṁ definida por Ṁ = dm + d N E. Para ver que de fato Ṁ é uma matriz de transição devemos observar que a soma de uma linha k desta matriz será N j= 2.0.3 Cálculo interativo ( dl(p k, P j ) + d ) = ( d) + d N N l(p k, P j ) = ( d) + d =. j= Em geral, R é calculado utilizando-se o Teorema.6.5, estudando-se a convergência da seguinte cadeia Markoviana: chamando de x(0) o vetor-probabilidade que contém os valores de P R(X) iniciais de cada página e de x(t) este mesmo vetor-probabilidade na iteração t, podemos calcular x(t + ) multiplicando x(t) pela matriz pela matriz Ṁ. Ou seja x(t + ) = x(t)ṁ Teremos então x() = x(0)ṁ x(2) = x(0)ṁ 2 x(t + ) = x(0)ṁ t+ Notando que a matriz Ṁ segue as exigências do Teorema.6.5 afinal Ṁ é uma matriz regular de transição, pois p ij são todos não-nulos e a soma de cada linha é, então podemos concluir que x(t) converge para o vetor R procurado quando t.
2 Não discutiremos a velocidade de convergência, no entanto o processo em geral não é demorado e com um número relativamente pequeno de iteração temos um valor bastante aproximado de R. 2.0.4 Ilustrando o método Nesta seção vamos considerar uma mini internet com 5 sites denotados respectivamente por A, B, C, D e E e cujas ligações estão ilustradas na Figura 2. abaixo: Figura 2.: Fonte: O autor podemos montar a matriz M, como definida anteriormente, 0 0 3 3 3 0 4 4 4 4 M = 0 0 0 2 2 5 5 5 5 5 3 0 3 0 3
22 Utilizando d = 0, 85, temos então que Ṁ = 0, 85 0 3 0 3 3 4 0 4 4 4 2 2 0 0 0 5 5 5 5 5 3 0 3 3 0 + 0, 85 5 que fornece Ṁ = 0, 03 0, 333 0, 03 0, 333 0, 333 0, 2425 0, 03 0, 2425 0, 2425 0, 2425 0, 455 0, 455 0, 03 0, 03 0, 03 0, 2 0, 2 0, 2 0, 2 0, 2 0, 333 0, 03 0, 333 0, 333 0, 03 Utilizando o software matemático MATLAB para fazer as sucessivas multiplicações podemos notar que calculando a nona e decima iteração obtemos 0.03 0.33 33 0.03 0.33 33 0.33 33 0.242 5 0.03 0.242 5 0.242 5 0.242 5 0.455 0.455 0.03 0.03 0.03 0.2 0.2 0.2 0.2 0.2 0.33 33 0.03 0.33 33 0.33 33 0.03 9 = 0.230 72 0.202 82 0.6 92 0.227 33 0.77 7 0.230 76 0.202 82 0.6 95 0.227 32 0.77 2 0.230 77 0.202 92 0.6 89 0.227 28 0.77 0.230 75 0.202 83 0.6 94 0.227 32 0.77 3 0.230 78 0.202 84 0.6 95 0.227 3 0.77 09 e
23 = 0.03 0.33 33 0.03 0.33 33 0.33 33 0.242 5 0.03 0.242 5 0.242 5 0.242 5 0.455 0.455 0.03 0.03 0.03 0.2 0.2 0.2 0.2 0.2 0.33 33 0.03 0.33 33 0.33 33 0.03 0.230 76 0.202 83 0.6 94 0.227 3 0.77 0.230 75 0.202 85 0.6 93 0.227 3 0.77 2 0.230 74 0.202 82 0.6 94 0.227 32 0.77 4 0.230 76 0.202 85 0.6 93 0.227 3 0.77 2 0.230 75 0.202 85 0.6 92 0.227 3 0.77 3 0 donde observamos que 9 0.03 0.33 33 0.03 0.33 33 0.33 33 0.242 5 0.03 0.242 5 0.242 5 0.242 5 0.455 0.455 0.03 0.03 0.03 0.2 0.2 0.2 0.2 0.2 0.33 33 0.03 0.33 33 0.33 33 0.03 0.03 0.33 33 0.03 0.33 33 0.33 33 0.242 5 0.03 0.242 5 0.242 5 0.242 5 0.455 0.455 0.03 0.03 0.03 0.2 0.2 0.2 0.2 0.2 0.33 33 0.03 0.33 33 0.33 33 0.03 4. 40 0 5 8. 23 0 6. 84 0 5. 60 0 5 5. 87 0 5 2. 7 0 6 3. 37 0 5 2. 44 0 5. 3 0 5 2. 49 0 6 = 3. 39 0 5 9. 88 0 5 4. 56 0 5 4. 36 0 5 3. 95 0 5 4. 79 0 6 2. 00 0 5. 2 0 5. 00 0 5 7. 60 0 6 3. 46 0 5. 06 0 5 2. 70 0 5 3. 70 0 6 4. 32 0 5 0 o que mostra que o método convergiu e se pode usar com boa margem de segurança M 9 para se obter R. Assim tomando vetor-probabilidade inicial (consideramos que o PageRank de cada
24 site são inicialmente iguais): [ R 0 = 5 5 5 5 5 ] temos que [ R 0 M 9 = 0, 2307 0, 2028 0, 69 0, 2272 0, 777 ] Portanto, se fossemos classificar os sites quanto sua importância, teríamos a seguinte ordem crescente de importância: A; D; B; E e C. 2. Casos em que o método pode não dar certo Vale lembrar que na vida real as coisas não são tão simples, por exemplo se um navegante buscar por assuntos pertinentes a matemática, ele poderá esbarar nos seguintes fatores que dificultarão a classificação:. O número muito grande de sites na internet; 2. Quando buscamos sobre matemática, não podemos levar tanto em consideração os sites sobre futebol, por exemplo, que possuem links que levam a sites relacionados à matemática. 3. Fatores publicitários e distratores que podem levar o navegador a se "embrenhar"em sites que não eram de interesse e nem possuem alguma ligação com a matemática. Porém, nada disso tira a importância do mecanismo de classificação descrito acima e que ainda é largamente utilizado pela Google. Além disso, existem casos que o método geral
25 visto na seção acima não funciona bem mesmo em redes pequenas. Relataremos abaixo cada um destes casos. 2.. Caso : Rede simples. Na Figura 2.2 abaixo, temos uma pequena rede com 4 sites (A, B, C e D), cada um vai iniciar com o valor de, ou seja, todos tem inicialmente a mesma importância: 4 Figura 2.2: Fonte: O autor Num segundo passo, como vemos na Figura 2.2, cada ligação transfere 0,25 para o PageRank de A, daí, P R(A) = P R(B) + P R(C) + P R(D) podemos associar a este sistema a seguinte matriz de transição M e sua respectiva Ṁ : M =
0 0 0 0 0 0 0 0 0 0 0 e 0 0 0 Ṁ = 0.85 0 0 0 + 0.85 5 = 0 0 0 0 0 0 0 0 0 0.03 0.03 0.03 0.03 0.88 0.03 0.03 0.03 que de fato não é uma matriz de transição (as somas dos elementos 0.88 0.03 0.03 0.03 0.88 0.03 0.03 0.03 de cada linha não dá ), o que não garante a convergência do método, Aliás Ṁ 0 0 fazendo com que o vetor-probabilidade nivele a zero a importância de todos os sites. Um outro modelo desta mesma situação pode ser visto na Figura 2.3, vemos pelas ligações existentes na figura, que o valor de B é transferido metade para A e metade para C. O valor de C é transferido para A e o de D, um terço para A, um terço para B e um terço para C. assim, 26 P R(A) = P R(B) 2 + P R(C) + P R(D), 3 mesmo assim, M apresentará uma linha nula, fazendo com que a convergência não seja garantida pelo Teorema.6.2. Outro problema que o algoritmo encontra é quando a rede é em forma de ciclo, como mostra a Figura 2.3 (fenômeno chamado rank sink). 2..2 Caso 2: Ciclo
27 Figura 2.3: Fonte: O autor 0 0 0 0 0 0 Neste caso M = e 0 0 0 0 0 0 0 0 0 0.03 0.88 0.03 0.03 0 0 0 0.03 0.03 0.88 0.03 Ṁ = 0.85 + 0.85 5 = é 0 0 0 0.03 0.03 0.03 0.88 0 0 0 0.88 0.03 0.03 0.03 tal que 0 0.03 0.88 0.03 0.03 [ ] 0.03 0.03 0.88 0.03 = 0.03 0.03 0.03 0.88 0.88 0.03 0.03 0.03 [ ] 0.737 42 0.737 42 0.737 42 0.737 42 Notemos que o problema, neste caso, se encontra no fato de todos os valores finais serem iguais, ou seja, todos apresentam a mesma importância, e não tem como formarmos uma ordem para exibi-los.
2..3 Caso 3: Páginas sem ligação Figura 2.4: Fonte: O autor O algoritmo também encontra problemas quando uma página é isolada das outras. Como mostra a Figura 2.4: Nesta pequena Rede com apenas 2 site teremos a matriz associada M = 0 e 0 0 Ṁ = 0.85 0 + 0.85 0.03 0.88 = que também não é uma matriz de 5 0 0 0.03 0.03 transição pois suas linhas não são vetores-probabilidades.
29 3 CONCLUSÃO A importância do trabalho vem do fato de termos utilizado apenas ferramentas simples, como os conceitos de Álgebra Linear e Probabilidade para explorar uma área que não é apresentada ao longo do curso de graduação e que nos leva a um algoritmo de grande importância nos dias atuais. Na elaboração do trabalho foi necessária a utilização de um software matemático para obtermos resultados mais rápidos e precisos, tanto no desenvolvimento dos exemplos apresentados quanto para explorarmos os resultados que utilizamos até sua total compreensão. O que foi um desafio de grande aproveitamento. Como os sites de busca são ferramentas muito utilizadas nos dias atuais, o algoritmo pode ser visto como indispensável, pois se fossemos fazer uma busca na internet onde os resultados são apresentados de forma aleatória passaríamos horas até encontrarmos uma página realmente relevante. Ou seja, podemos perceber que conceitos simples podem nos gerar muitos benefícios, o que nos faz acreditar que ainda podemos ter muitas outras contribuições como esta.
30 REFERÊNCIAS () BOLDRINI, J. L.; COSTA, S.I.R.; RIBEIRO, V. L.,WETZLER, H.G., Álgebra Linear, Harper-Row, São Paulo; 986. (2) GERHARDT, M. L. Descobrindo a pesquisa no ensino médio. Santa Maria: UFSM, 203. (3) GOLMAKANI, et al. Cadeias de Markov. Maceió: [s.n.], 204. (4) HOWARD, A; RORRES, C. Álgebra linear com aplicações, 8 ed. Rio de Janeiro: Bookman 2002. (5) MALAJOLVICH,G., Álgebra Linear. Rio de Janeiro, [s.n.], 200. (6) NOGUEIRA, F. Modelagem e simulação cadeias de Markov. [Juiz de fora]: [s.n.], 2009. Notas de aula. (7) PEDROSO. C.M. Modelagem e avaliação de desempenho. Paraná:[s.n.], 20. (8) PORILHO, D. F.; VARGAS. V. Conceitos e simulação de cadeias de Markov. Goiás: [s.n.], 200. (9) WIKIPÉDIA. PageRank. Disponível em: http://pt.wikipedia.org/wiki/pagerank. Acesso em 20 de maio de 205.