Análise de dados de contagem para jogadores de futebol americano

Documentos relacionados
Análise do acidente do Titanic

Alexandre Morales Diaz Eduardo Pereira Lima Vinicius Larangeiras

Análise dados de diagnóstico de câncer de mama

Número de Consultas ao Médico

Análise de dados de Contagem

Adriane Machado Cinthia Zamin Cavassola Luiza Hoffelder da Costa REGRESSÃO EM DADOS DE CONTAGEM: UM ESTUDO SOBRE A QUANTIDADE DE BICICLETAS ALUGADAS

UNIVERSIDADE FEDERAL DO PARANÁ. Adi M. A. Junior Leonardo H. B. Krüger Kristiany J. Martini Konstanz T. Winter

Trabalho de Modelos Lineares Generalizados

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Modelos de Regressão para Dados de Contagem

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Análise de Regressão EST036

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

Trabalho de GLM 2. Adi M. ARAÚJO, Kristiany J. MARTINI, Konstanz W. TONEGAWA, Leonardo H. KRÜGER. 17 de outubro de 2017

Regressão para Dados Binários - Estudo de Dengue

UNIVERSIDADE FEDERAL DO PARANÁ. André Luiz Grion GRR Bruno Henrique Abreu GRR Maria Tereza Neves de Oliveira GRR

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

UNIVERSIDADE FEDERAL DO PARANÁ. André Luiz Grion GRR Bruno Henrique Abreu GRR Maria Tereza Neves de Oliveira GRR

Regressão linear simples

Um modelo estatístico para campeonatos de Futebol

Aplicação de modelos lineares generalizados na captura de atum da espécie Thunnus albacares.

Distribuição de Probabilidade de Poisson

Aplicação dos modelos lineares generalizados na análise do

UNIVERSIDADE FEDERAL DO PARANÁ. Departamento de Estatística

Departamento de Estatística

Daniel Queiroz VARIÁVEIS ALEATÓRIAS DISCRETAS

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

Analise de sobreviventes em acidentes de carros

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

CAPÍTULO Reconhecer espaços. Capacidades táticas. Pablo Juan Greco Gustavo de Conti T. Costa Juan Carlos P. Moraes

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

Média no esporte. Dinâmica 6. Aluno PRIMEIRA ETAPA COMPARTILHAR IDEIAS. 3ª Série 2º Bimestre ATIVIDADE DOMINÓ DAS FRAÇÕES

Métodos Quantitativos para Avaliação de Políticas Públicas

Matemática Aplicada às Ciências Sociais - 10 o Ano Análise de dados bivariados

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 06 de novembro de 2018

REGULAMENTO DESAFIO ACADEMIA DA RUA 3 X 3

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Para esta fase inicial, o vencedor será contemplado com uma viagem para conhecer os Estados Unidos da América.

Precificação de apartamentos para o bairro Água Verde em Curitiba

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Probabilidade e Estatística

CONHECIMENTOS ESPECÍFICOS

SELEÇÃO DE VARIÁVEIS

Análise de Resíduos. investigar características que comprometem a validade do MRLS:

Modelos para Dados de Contagem

CONHECIMENTOS ESPECÍFICOS

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR RODOLFO PIROLO GATZKE - GRR THAYS COSTA S. SOUZA - GRR

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

RECONHECIMENTO DE PADRÕES - RP

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

4 Modelos Lineares Generalizados

CONHECIMENTOS ESPECÍFICOS

REGULAMENTO 5ª COPA TIM DE FUTEBOL CACHOEIRA DA GRAÇA

Modelos de Regressão Linear Simples - Análise de Resíduos

UNIVERSIDADE FEDERAL DO PARANÁ. André Luiz Grion GRR Bruno Henrique Abreu GRR

Exemplo Falhas em Tecidos

CORRELAÇÃO E REGRESSÃO

Análise de Dados Categóricos

Modelos de Regressão Linear Simples - Análise de Resíduos

Capítulo 5 Distribuições de Probabilidades. Seção 5-1 Visão Geral. Visão Geral. distribuições de probabilidades discretas

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

REGULAMENTO 1º TORNEIO DE BASQUETE 3X3 Masculino HERVAL D OESTE SC Data 08/04/2018 Início: 08 horas, Término: 17 horas

Universidade Federal de Goiás Instituto de Matemática e Estatística

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Apontamentos de Introdução às Probabilidades e à Estatística

NORMAS ESPECÍFICAS BASQUETEBOL

Aula 1: Introdução à Teoria dos Jogos

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Notas de Aula. Copyright 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame NOME:

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

REGULAMENTO 4ª COPA TIM DE FUTEBOL MORRO GRANDE

FLAGBOL. Profº Paulo Fernando Mesquita Junior

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos lineares generalizados: um estudo sobre leilões de veículos

CONHECIMENTOS ESPECÍFICOS

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Problema A. Volta. Entrada

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA. Ministério da Educação

IV JOGOS INTERCAMPI 2015 REGULAMENTO ESPECÍFICO DE MODALIDADES BASQUETEBOL

Prof. MSc. Herivelto Tiago Marcondes dos Santos

NORMAS ESPECÍFICAS FUTSAL

REGULAMENTO ESPECÍFICO DO FUTSAL

SIMULADOR DE UMA PARTIDA DE FUTEBOL COM ROBÔS VIRTUAIS

PROGRAMAÇÃO BASQUETE TRIO

Modelagem do número de patentes nos países americanos via Regressão múltipla

Transcrição:

Análise de dados de contagem para jogadores de futebol americano Alexandre Morales Diaz Eduardo Pereira Lima Pedro Guilherme Guimaraes Vinicius Larangeiras Trabalho de Modelos Lineares Generalizados (CE-225), Universidade Federal do Paraná, submetido ao professor Cesar Augusto Taconeli. Curitiba 2017

Sumário 1. Resumo... 3 2. Introdução... 3 3. Material e métodos... 4 3.1 Definição da Base de Dados... 4 3.2 Análises descritivas da base... 4 3.3 Modelos Ajustados... 5 4. Conclusão... 8 5. REFERÊNCIAS BIBLIOGRÁFICAS... 8

3 1. Resumo O trabalho consiste em modelar uma distribuição de variável resposta do tipo contagem. Para isso foram analisados os dados de diversos quarterbacks, posição mais importante do futebol americano, e foi feito um estudo para analisar o desempenho desses jogadores e o quanto seu desempenho contribui para a pontuação final do time. Para isso foi utilizado a aplicação de modelos lineares generalizados para dados de contagem. Palavras chave: Dados de contagem, Quarterback, Futebol Americano, Poisson, Binomial Negativa, Binomial Negativa Inflacionada de zeros, Modelos Lineares Generalizados, GLM, Deviance Residual, AIC 2. Introdução Neste trabalho foram ajustados alguns modelos para dados de contagem com uma base de 13.188 observações de jogadores de futebol americano, sendo todos da posição de quarterback. Cada linha da base corresponde às estatísticas do jogador em uma partida, com isso, os jogadores terão mais de uma linha de estatísticas, já que essa base contém estatísticas de todos os jogos de 1996 até 2016. Inicialmente apresentamos os materiais e métodos utilizados nesse trabalho. A base de dados que foi retirada do site www.kaggle.com, e fizemos uma breve análise descritiva destes dados para poder entender melhor como se comportam os dados. Depois apresentamos e citamos alguns modelos que foram ajustados para tentar chegar no melhor ajuste possível, considerando alguns métodos e estatísticas para se ter um bom modelo ajustado. Para verificar a qualidade do ajuste do modelo levamos em consideração a análise dos resíduos e o quão bom foi o ajuste dos dados para com a distribuição escolhida em cada tentativa de ajuste, e outras estatísticas como Deviance Residual e Critério de Informação de Akaike. Algumas das distribuições que foram utilizadas para essas análises foram a Poisson e a Binomial Negativa, porém esses dois ajustes não foram considerados satisfatórios, seja por problemas como superdispersão, ou então falta ajuste da distribuição aos dados, não atendendo os pressupostos dos resíduos, em especial à normalidade dos mesmos. A distribuição que melhor se ajustou aos dados foi a Binomial Negativa Inflacionada de Zeros, sendo esta a escolhida para ajustar o modelo em questão. Com a definição do modelo a ser usado, iremos prosseguir com o objetivo do trabalho, que é relacionar o desempenho do quarterback com a pontuação final do time, ou seja, verificar quais estatísticas da posição influenciam mais na pontuação final do time, para então possivelmente poder assessorar jogadores da posição para que seu desempenho seja voltado à ajudar o máximo possível à vitória do time.

4 3. Material e métodos 3.1 Definição da Base de Dados Após pesquisar diferentes bases de dados para este estudo, decidimos por utilizar a base de estatísticas de quarterbacks por atender aos requisitos de dados de contagem, e também por ser um esporte em que as estatísticas exercem enorme influência no resultado final da partida, diferentemente do futebol em que um lance pode definir a partida, no futebol americano o resultado é construído ao longo da partida. 3.2 Análises descritivas da base Como citado anteriormente, a base estudada contém um total de 13.188 linhas, sendo cada linha correspondente às estatísticas de um quarterback num determinado jogo. Apresentamos na Tabela 1 as descritivas das variáveis contínuas. Tabela 1: Descritivas das variáveis contínuas da base utilizada Como podemos ver, temos 15 variáveis na base, sendo elas: Nome: Identificação dos jogadores. Os nomes podem se repetir, já que um jogador pode ter realizado mais de uma partida. Tentativas: Tentativas de lançamentos realizadas do quarterback durante o jogo. Completos: Lançamentos completos realizados pelo jogador, ou seja, tentativas de lançamento em que o jogador alvo conseguiu completar a recepção. Jardas: Total de jardas dos passes completados. Jds_Tentativa: É uma média de jardas totais por tentativa de passe. Touchdown: Touchdown é o gol do futebol americano. Essa variável contempla apenas os touchdowns realizados a partir de um passe do quarterback. Interceptado: Interceptações sofridas pelo quarterback. Interceptação se define quando um jogador do time adversário recebe a bola durante uma tentativa de lançamento. Mais_Longo: Passe completo pelo quarterback mais longo do jogo. TD_Longo: Variável que indica se o passo mais longo do jogo teve como resultado um touchdown. Com n igual a 10301 e t igual a 2887, com n sendo não e t sendo touchdown.

5 Sack: Esse é um evento que ocorre quando um jogador do time adversário consegue derrubar o quarterback antes que o mesmo realize o lançamento, resultando numa perda de jardas. Jds_Perdidas: Quantidade de jardas perdidas resultadas de sacks. Nota_NFL: Nota dada pela NFL (organizadora da competição) para o desempenho do quarterback. Pontos_Time: Quantidade de pontos marcados pelo time do quarterback. Casa_Fora: Indica se o time do quarterback era mandante ou não da partida. Tendo 6629 em casa e 6559 fora de casa, com alway sendo fora e home casa. Ano: Indica o ano em que foi realizada a partida. 3.3 Modelos Ajustados Para ajustar um modelo de GLM, removemos da base a variável Nome, pois o modelo de GLM pressupõe de que as linhas são independentes entre si. Para poder utilizar a identificação do jogador no modelo teríamos que aplicar técnicas de estatística multivariada, porém como não temos o arcabouço necessário para utilizar tais técnicas, iremos assumir que a linhas são independentes. Utilizando o método de seleção Stepwise, em que são analisadas quais variáveis são significativas para o ajuste do modelo, foi definido de que as variáveis Jds_Tentativa e TD_Longo não são significativas para o ajuste do modelo final. O modelo que melhor se adequou aos dados foi a Binomial Negativa Inflacionada de Zeros, que é um modelo de mistura de uma distribuição para contagens, no caso uma Binomial Negativa, com uma distribuição degenerada em zero (igual a zero com probabilidade um). Apesar de a variável resposta não conter zeros em sua maioria, foi o modelo que melhor se ajustou aos dados. Na Figura 1, podemos observar o histograma da variável Pontos_Time.

6 Na Figura 2, temos os gráficos para análise dos resíduos do modelo final. Figura 2 Gráficos das análises dos resíduos

7 Através desses gráficos, podemos tirar as seguintes conclusões: O gráfico de quantis residuais versus valores ajustados mostra uma tendência dos dados em forma de cone, porém levando em conta os outros gráficos, este não se mostra um problema relevante ao ajuste do modelo. O gráfico de quantis residuais versus o índice de cada observação nos mostra que o dados estão homogeneamente distribuídos ao redor da média, e a dispersão dos desvios, eixo Y, está dentro da amplitude satisfatória, pois a grande maioria dos resíduos se encontram entre -3 desvios padrão e 3 desvios padrão. O gráfico de densidade versus os quantis residuais nos mostra que os resíduos aparentam seguir uma distribuição normal, que é nosso objetivo nesse estudo. E por último o gráfico de normalidade, conhecido por gráfico Quantil-Quantil, que corrobora o terceiro gráfico, indicando normalidade dos resíduos. O AIC deste modelo foi de 92985,44. Como falamos anteriormente, tentamos ajustar outros modelos com outras distribuições, e como parte de nossa escolha pelo melhor modelo, levamos em conta essa estatística, que também indicou a Binomial Negativa Inflacionada de Zeros como o modelo que melhor se ajusta aos dados Escolhido o modelo que melhor se ajusta aos dados, realizamos as predições para cada observação, e comparamos com os valores observados. Segue a comparação na Figura 3.

8 Podemos observar que existe uma forte associação entre os valores preditos e os valores observados, trazendo mais evidências de que o modelo se ajustou adequadamente aos dados. 4. Conclusão Após toda a análise realizada neste estudo concluímos que as variáveis que mais influenciam positivamente para a pontuação final do time são Touchdown e Casa_Fora, sendo que jogar em casa aumenta significativamente os pontos do time, e as que mais influenciam negativamente são Sack e Interceptado. Dito isso, em uma possível assessoria a um quarterback, seria indicado treinar lançamentos que visam jogadores perto da linha de touchdown, e também algum treinamento psicológico para que quando o time jogue fora de casa tenha um desempenho melhor. Para o caso dos sacks, teria que ser feito um trabalho com a linha ofensiva, que são os jogadores que protegem o quarterback, pois eles evitam que o quarterback seja sacado. Além disso, um treinamento com o quarterback para fazer lançamentos mais rápidos, evitando assim o sack. Para os passes interceptados, seria indicado um treinamento de lançamento, pois a maior causa de interceptações é o lançamento errado. 5. REFERÊNCIAS BIBLIOGRÁFICAS Paulo, Gilberto A. Modelos de Regressão com apoio computacional. Instituto de Matemática e Estatística Universidade de São Paulo.