PREVISÃO DE PARTIDAS DE FUTEBOL USANDO MODELOS DINÂMICOS

Tamanho: px
Começar a partir da página:

Download "PREVISÃO DE PARTIDAS DE FUTEBOL USANDO MODELOS DINÂMICOS"

Transcrição

1 PREVISÃO DE PRTIDS DE FUTEBOL USNDO MODELOS DINÂMICOS Oswaldo Gomes de Souza Junor Insttuto de Matemátca Unversdade Federal do Ro de Janero Dan Gamerman Insttuto de Matemátca Unversdade Federal do Ro de Janero Área: EST- Estatístca Resumo Este trabalho consste em realzar prevsões de partdas de futebol. Para sso, são utlzados modelos contendo três fatores que explcam os números de gols fetos: ataque, defesa e campo. São utlzadas nformações passadas para estmar os fatores ctados. Os modelos são estmados através de smulações va MCMC (Gamerman, 997). partr destas smulações, calculam-se as dstrbuções predtvas de dferentes quantdades de nteresse, como número de pontos para um tme ser campeão e colocação de um dado tme. Métodos de comparação entre dferentes sstemas de prevsão são consderados e usados para avalar nossas prevsões. metodologa é utlzada para analsar dados dos Campeonatos Brasleros de futebol de 2002 e Palavras chave: dstrbução predtva, nferênca Bayesana, verossmlhança. bstract Ths work conssts n forecastng football matches. Models contanng three factors are used to explan the number of goals scored: attack, defense and home match. Past nformaton s used to estmate the cted factors. Models are estmated through MCMC-based smulatons (Gamerman, 997). From these, predctve dstrbutons for quanttes of nterest, such as number of ponts needed to become champon and placement of a gven team are calculated. Methods for comparson between dfferent forecastng systems are consdered and used to evaluate our predctons. The methodology s used to analyse data from the 2002 and 2003 Brazlan football champonshps. Key words: Bayesan nference, lkelhood, predctve dstrbuton.

2 . Introdução Estatístca vem tendo um grande avanço nos últmos anos em dversas áreas, porém mas notada em termos de quantdade aplcável a problemas reas. Uma de suas dversas aplcações é no estudo de resultados ocorrdos em esportes, em partcular, em jogos de futebol. Quando são realzados campeonatos de futebol, há confrontos entre os tmes, e são consderados vencedores aqueles que, ao fnal do jogo, fazem mas gols. Se há gualdade no número de gols fetos por ambas as equpes, é porque o jogo termnou empatado. O objetvo desse estudo é analsar o comportamento dos tmes através de resultados anterores e fazer uma prevsão para os jogos seguntes. Ou seja, estmar o número de gols que determnada equpe fará nas próxmas partdas. Já foram desenvolvdos város trabalhos nessa área. Em partcular podemos ctar os trabalhos de Glckman (993), Glckman e Stern (998) e Knorr-Held (2000), que utlzam modelos dnâmcos (Harron e Stevens, 976; Pole, West e Harrson, 994). Portanto, nosso objetvo prncpal é fazer com que os resultados obtdos sejam melhores do que os já encontrados. Na seção 2 é descrto o modelo básco utlzado, ou seja, o modelo usado em uma fase ncal. Na seção segunte, são mostrados os resultados de uma análse prelmnar. seção 4 fala sobre o modelo em sua fase fnal, fazendo extensão à parte dnâmca. Em seguda, são mostrados os resultados desta parte, segudos de uma seção contendo as prevsões ctadas. O artgo é fnalzado com as conclusões. 2. Modelo Incal Suponhamos que o nteresse sera prever o resultado do jogo x B. través dos jogos passados, vamos obter os fatores de ataque e de defesa dos dos tmes. O Fator taque representa o comportamento do ataque de determnada equpe, ou seja, quantfca o número de gols fetos pelo tme. O Fator Defesa se refere ao comportamento da defesa, ou seja, dá valores ao número de gols sofrdos pela equpe. lém desses dos fatores, é usado também o Fator Campo. Esse fator é mportante, pos através dele, podemos verfcar se o tme joga melhor em casa ou fora de casa. Dzem que para a maora das equpes é melhor jogar em casa, mas pode ser que determnado tme venha obtendo melhores resultados jogando fora de casa, durante determnado campeonato. Então é necessáro colocar essa nformação no modelo. Enfm, o modelo que será utlzado nesse estudo é o segunte: onde ( λ ) NGF ~ Poss logλ = t De + Ca NGF representa o número de gols fetos pela equpe ; t representa o Fator taque de ; De B representa o Fator Defesa de B; Ca representa o Fator Campo de ; Da mesma forma, para NGF B, temos: B ( λ ) NGFB ~ Poss logλ = t De B B (2.) (2.2) 650

3 3. nálse Prelmnar Esse estudo será feto com dados do Campeonato Braslero de Como análse prelmnar, fo testado se a dstrbução de Posson ajustara bem o número de gols no campeonato em questão. s fguras e 2 mostram essa comparação. Em preto, temos os dados reas e em vermelho a verdadera dstrbução de Posson. Podemos notar um ajuste muto bom tanto nos gols fora de casa, quanto nos gols marcados fora de casa. lém da comparação vsual, fo feto também o teste de Bondade de juste. E nesse teste fo aceta a hpótese de se ajustar os gols por uma Posson com parâmetro λ, onde λ é a méda de número de gols. Com os dados do Campeonato Braslero de 2002 em mãos, foram analsadas as 22 prmeras rodadas para ser feta a prevsão para as 3 últmas da prmera fase. pós fazer uma nálse de Regressão com os dados em questão, foram obtdos todos os fatores para os tmes do campeonato. baxo, temos esses fatores para os tmes do Ro de Janero: Tmes Fator taque Fator Defesa Fator Campo Botafogo Flamengo Flumnense Vasco Podemos ver através da tabela acma que, até a 22ª rodada, o melhor ataque, entre os carocas, era o do tme do Vasco, já que possu o maor Fator taque. Da mesma forma, vemos que o Flumnense possu a por defesa, uma vez que possu o maor Fator Defesa, ou seja, sofreu mas gols entre os tmes do Ro. Quanto ao Fator Campo, podemos dzer que o tme que mas sente a dferença entre jogar em casa e jogar fora de casa é o Flumnense. Obteve melhores resultados jogando em casa. 4. Modelo Dnâmco té aqu, fo usado apenas o modelo estátco, ou seja, onde não se permta varar os fatores. partr de agora, vamos dar um outro tratamento ao modelo, permtndo, dessa forma, uma varação dos fatores com o ntuto de melhorar os resultados. Com base no modelo descrto acma, serão analsadas as rodadas ncas do campeonato em estudo para poder estmar resultados para as partdas seguntes. través dos fatores avalados, faremos a prevsão. ssm como em Knorr-Held (2000), para avalar o Fator taque do tme, por exemplo, será usado um modelo dnâmco, de acordo com a segunte equação 65

4 onde ω + ~ N (0, σ 2 ). + t = t + ω +, (4.) O mesmo racocíno é utlzado para os Fatores Defesa e Campo. De Ca + = De + ω+ + = Ca + ω+ (4.2) (4.3) Queremos dzer, com esse modelo, que os fatores vão sendo atualzados à medda que os jogos vão acontecendo, ou seja, ao longo das rodadas. O fator em questão, no tempo, é esse fator no tempo - somado a um erro aleatóro. Como não temos nformação nenhuma na prmera rodada, pos estamos utlzando apenas os dados do campeonato em questão, usamos uma pror vaga. Esta sempre é usada no modelo dnâmco quando não se tem nformação ncal. Em nosso modelo, utlzamos a segunte pror vaga: 2 ( 0, ) t ~ N σ, (4.4) onde a varânca σ 2 é um valor alto para poder dar chances razoáves para todos os valores possíves. Segundo o mesmo racocíno, temos: ( 0, 2 ) ( 0, 2 ) De ~ N ξ (4.5) Ca ~ N δ (4.6) Da mesma forma, segumos racocíno semelhante para as dstrbuções a pror do tme B. ssm, os fatores são atualzados à medda que as rodadas vão acontecendo, ou seja, os fatores varam com o tempo. Desta forma passamos a usar (4.), (4.2) e (4.3) em (2.) e temos a segunte verossmlhança: 2 onde ε ~ N( 0, σ ), = 2,...,n ( ) NGF ~ Poss λ (4.7) logλ = t DeB + Ca + ε, (4.8) Da mesma forma, também temos: 2 onde τ B ~ N( 0, σ ), 5. Prevsões = 2,...,n Consdere a segunte notação: ( ) NGFB ~ Poss λ B logλ = t De + τ B B B, 652

5 θ = ( θ,..., θ n ) (5.) onde θ = ( t, De, Ca ), t = ( t tletco-mg,..., t Vtóra ) é o vetor com os fatores ataque para os tmes na rodada, De = ( De tletco-mg,..., De Vtóra ) é o vetor com os fatores defesa para os tmes na rodada, Ca = ( Ca tletco-mg,..., Ca Vtóra ) é o vetor com os fatores campo para os tmes na rodada, NGF = (NGF tletco-mg,..., NGF Vtóra ) é o vetor com os nos. de gols dos tmes na rodada, D = { NGF,..., NGF } é o conjunto contendo toda a nformação até a rodada, para =,...,n. Em (5.), temos que θ é o vetor que contém vetores com todas as nformações dos tmes. Por exemplo, θ é um vetor de tamanho 3 com as característcas (ataque, defesa e campo) do tme. E assm para os demas tmes. Os tmes em questão são: tlétco MG, tlétco PR, Baha, Botafogo, Cornthans, Cortba, Cruzero, Fguerense, Flamengo, Flumnense, Gama, Goás, Grêmo, Guaran, Internaconal, Juventude, Palmeras, Paraná, Paysandu, Ponte Preta, Portuguesa, Santos, São Caetano, São Paulo, Vasco e Vtóra. Utlzando o teorema de Bayes, a estmação dos parâmetros até a rodada, será feta a partr da posteror. Esse cálculo não é fácl e, da mesma forma que Glckman (993), utlzamos o WnBugs, um pacote estatístco que usa MCMC, para extrar amostras a posteror, que pode ser obtda da segunte forma (ver DeGroot, 2002): ( ) ( ) ( ) p θ,..., θ D L θ,..., θ p θ,..., θ onde L(θ,..., θ ) é a verossmlhança até a rodada e p( θ,..., θ ) é a pror até a rodada. Podemos exemplfcar a utlzação do modelo dnâmco com os parâmetros de 3 tmes: Cortba, Flamengo e Ponte Preta. Foram fetas apenas 3 varações nas rodadas 5, 30 e 44 devdo a lmtes computaconas. Podemos, assm, escrever o modelo que faz prevsão dos resultados, baseado na predtva, da segunte forma: 653

6 3 é obtdo por smulação va MCMC, servndo de parâmetro para smular amostras de 2. Desta forma, automatcamente temos amostras de. Essas smulações de Monte Carlo va Cadea de Markov (MCMC) são utlzadas para resolver esse tpo de problema como dto anterormente. Gamerman (997) descreve o método detalhadamente. Para analsar os resultados, poderam ser nvestgados os dferentes placares (x0, 2x,...), porém se tornara complcado avalar o modelo, uma vez que exste uma grande possbldade de resultados. Uma manera de contornar sso, é agregar os resultados da predtva nos 3 eventos possíves: vtóra, empate e derrota. ssm, com os resultados dos jogos prevstos, poderemos realzar város cálculos, em partcular, achar o número de pontos que os tmes farão ao fnal do campeonato. Com a pontuação fnal de todos os tmes para todas as smulações fetas, podemos calcular as probabldades de um tme ser rebaxado, de um tme se classfcar pra lbertadores, a pontuação mínma para um tme ser campeão, dentre outros resultados de nteresse. Desta forma, podemos escrever T T NP = f ( NGF,..., NGF ), onde NP T é o número de pontos do tme na rodada fnal T. Cabe ressaltar que, qualquer função desse tpo pode ter sua dstrbução aproxmada por smulação. 6. Resultados Utlzando o WnBugs, smulamos 000 vezes os jogos das 3 últmas rodadas. Com os resultados obtdos, ou seja, a probabldade predtva, pegamos as proporções para os 3 eventos possíves. Desta forma, estamos aproxmando os resultados reas por quantdades teórcas. baxo, temos alguns exemplos para as prevsões dos jogos em questão: Placar Real: Paraná 2x0 Botafogo prevsão encontrada para esse jogo fo a segunte: Paraná x Botafogo 26% 25% 49% Vtóra Empate Derrota Podemos detalhar anda mas: 654

7 Vtóra x0 7.9% 2x0 8.3% 2x 9.9% 3x0 6.7% 3x 5.8% 3x2 4.4% Outros6.0% Empate 0x0 4.9% x 7.7% 2x2 6.3% 3x3 3.8% Outros2.3% Derrota 0x 3.8% 0x2 3.5% x2 5.9% 0x3.% x3 3.0% 2x3 4.2% Outros4.5% Placar Real: Vasco 4x Vtóra prevsão encontrada para esse jogo fo a segunte: Vasco x Vtóra 8% 26% 56% Vtóra Empate Derrota Podemos detalhar anda mas: Vtóra x0 3.9% 2x0.3% 2x 9.3% 3x0 5.8% 3x 4.9% 3x2 3.5% Outros6.3% Empate 0x0 6.6% x 8.4% 2x2 7.6% 3x3 0.9% Outros2.5% Derrota 0x 5.5% 0x2 3.3% x2 3.7% 0x3.% x3.2% 2x3.6% Outros.6% Outros2.% s chances de vtóra, empate e derrota para os 39 últmos jogos da prmera fase do Campeonato Braslero de 2002 podem ser calculadas. Desses jogos, o modelo acertou 2 resultados, ou seja, obteve um aprovetamento de 54%. Da mesma forma, temos as prevsões para a fase fnal: Jogo Vtora Empate Derrota Santos 3 x SaoPaulo 44,8% 22,3% 32,9% Flumnense 3 x 0 SaoCaetano 33,% 24,6% 42,3% tletcomg 2 x 6 Cornthans 50,7% 22,5% 26,8% Gremo 0 x 0 Juventude 54,3% 27,6% 8,% SaoCaetano 2 x 0 Flumnense 73,% 6,5% 0,4% Cornthans 2 x tletcomg 39,2% 2,9% 38,9% 655

8 Juventude 0 x Gremo 46,3% 29,% 24,6% SaoPaulo x 2 Santos 66,6% 3,8% 9,6% Santos 3 x 0 Gremo 46,9% 26,4% 26,7% Flumnense x 0 Cornthans 45,6% 22,7% 3,7% Gremo x 0 Santos 45,% 24,8% 30,% Cornthans 3 x 2 Flumnense 52,3% 23,9% 23,8% Santos 2 x 0 Cornthans 47,8% 25,7% 26,5% Cornthans 2 x 3 Santos 36,8% 25,2% 38,0% Na fase fnal, o modelo acertou 9 dos 4 jogos, obtendo, portanto, 64% de aprovetamento. Com esse estudo, podemos também analsar a varação dos fatores durante as rodadas. Para dar um exemplo dsso, vamos verfcar o comportamento desses fatores para os tmes do Ro: través do gráfco do Fator taque, pode-se notar que o Flumnense melhorou seu Fator taque. Observa-se também, que, ao fnal da prmera fase, o Botafogo tem o por ataque entre os carocas, enquanto que para os outros tmes do Ro, esse fator fca em torno do mesmo valor. No gráfco do Fator Defesa, tem-se que ao fnal da prmera fase o Vasco tem o menor Fator Defesa, ou seja, sofreu menos gols e, portanto, entre os carocas, tem a melhor defesa. Segundo o mesmo racocíno, o Flumnense tem a por defesa entre os tmes do Ro. No últmo gráfco, Fator Campo, observa-se que para o Flumnense, ao longo do campeonato, faz mas dferença entre jogar em casa ou fora do que para Vasco, Flamengo ou Botafogo. Para os tmes de São Paulo, temos: 656

9 través do gráfco do Fator taque, podemos notar que a Ponte Preta tem o por ataque no começo do campeonato e melhora seu desempenho no fnal da prmera fase. Portuguesa tem um desempenho rum ao longo da prmera fase e se destaca, negatvamente, ao fnal, fator decsvo para seu rebaxamento. Notamos também, que Santos e São Paulo tem os melhores ataques na parte fnal da prmera fase. No gráfco do Fator Defesa, temos que o Palmeras mantém a regulardade: sempre com a por defesa, fator decsvo para seu rebaxamento. O Guaran, no meo do campeonato, pode ser consderado a equpe com a melhor defesa, posto que é perddo para o São Caetano no fnal da prmera fase. No últmo gráfco, o do Fator Campo, observamos que para a equpe do São Paulo é melhor jogar em casa do que para os demas tmes. Para Portuguesa e Guaran, por exemplo, não faz dferença em jogar dentro ou fora de casa. Gráfcos smlares podem ser construídos para todos os outros tmes que dsputaram o campeonato. Podemos também, em qualquer rodada do campeonato, calcular as dstrbuções do número de pontos e da colocação de um dado tme. partr de agora, utlzaremos os dados do campeonato braslero de Como o estudo feto para prever os resultados já fo vsto anterormente, agora será enfocada a parte fnal do estudo, ou seja, nos preocuparemos com as chances de rebaxamento, pontuação fnal,... Foram cadastrados todos os resultados até a rodada 34 (consderada como sendo o da de hoje) e então, fetas smulações para calcular as pontuações dos tmes no fnal do campeonato. Com as probabldades calculadas, comparamos os resultados com o que aconteceu, de fato. E aqu apresentaremos, a título de lustração, os resultados para o Flamengo: Na fgura anteror, temos que a lnha em vermelho é o resultado que de fato aconteceu, ou seja, o Flamengo fez 63 pontos e em preto é a dstrbução de probabldade da pontuação fnal deste tme. O mesmo racocíno é usado para a fgura ao lado, só que com relação à posção fnal. Outros resultados nteressantes podem ser calculados. Por exemplo, são muto dvulgados pela mprensa o mínmo de pontos que um tme precsa para se classfcar para a Copa Lbertadores da mérca, campeonato sul-amercano de prestígo, e o número de pontos que um tme precsa para não ser rebaxado à 2ª. Dvsão. Essas questões são resolvdas através do uso de dstrbuções predtvas. Os gráfcos abaxo mostram as chances de um tme se classfcar para a Lbertadores com determnado número de pontos em duas rodadas dstntas. 657

10 Os gráfcos abaxo mostram as chances de um tme ser rebaxado com determnado número de pontos em duas rodadas dstntas. Comparações de modelos podem ser fetas através das verossmlhanças predtvas, sto é, através do cálculo da probabldade que um modelo dá para o que realmente aconteceu. No caso de prevsões para város eventos, podemos smplfcar e calcular o produto das probabldades que o modelo dá para os dferentes eventos observados. Para o campeonato em questão, foram comparadas as verossmlhanças por nós obtdas com aquelas fornecdas pelo ste Chance de Gol ( s verossmlhanças obtdas foram: 2,26 x 0-7, para o Chance de Gol e 7,66 x 0-7 para o nosso modelo. Isso mostra que nossas prevsões foram cerca de 3 vezes mas corretas em termos probablístcos. 658

11 7. Conclusões É mas razoável a utlzação desse modelo dnâmco, pos este se aproxma mas da realdade, uma vez que mostramos que o desempenho de cada equpe vara ao longo das rodadas. lém dsso, podemos estender esses resultados a qualquer campeonato e a partr de algumas nformações cadastradas, prever resultados de jogos, pontuações e outros resultados de nteresses. gradecmentos o LEs Laboratóro de Estatístca/UFRJ, pelo uso de seus computadores; o CNPQ que através da bolsa oferecda, ncentvou, desde o começo, a realzação do projeto; 8. Bblografa DeGroot, M.H. (2002) Probablty and Statstcs 3a edção, ddson-wesley. Gamerman, D. (997) Markov Chan Monte Carlo: Stochastc Smulaton for Bayesan Inference, Chapman & Hall, Londres. Glckman, M. E. (993) Pared Comparson Models Wth Tme-Varyng Parameters. Departament of Statstcs, Havard Unversty, Cambrdge. Glckman, M. E. e Stern H. S. (998). state-space model for Natonal Football League scores. Harrson, P. J. e Stevens, C. F. (996) Bayesan forecastng (com dscussão). Journal of the Royal Statstcal Socety, Seres B, 38, Knorr-Held, L. (2000) Journal of the Royal Statstcal Socety, Seres D, The Statstcan, 49, Pole,., West, M. e Harrson, J. (994) ppled Bayesan Forecastng and tme seres analyss. Sprnger, Nova York. 659