Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

Documentos relacionados
Regressão para Dados Binários - Estudo de Dengue

Modelos de Regressão para Dados de Contagem

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Analise de sobreviventes em acidentes de carros

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Regressão Logística: Um Estudo sobre o Uso de Tabaco entre Alunos da Universidade Federal do Paraná Curitiba

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

Número de Consultas ao Médico

Trabalho de Modelos Lineares Generalizados

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Análise de dados de Contagem

EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Análise de dados de contagem para jogadores de futebol americano

Modelos lineares generalizados: um estudo sobre leilões de veículos

UNIVERSIDADE FEDERAL DO PARANÁ. Adi M. A. Junior Leonardo H. B. Krüger Kristiany J. Martini Konstanz T. Winter

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 06 de novembro de 2018

Trabalho de GLM 2. Adi M. ARAÚJO, Kristiany J. MARTINI, Konstanz W. TONEGAWA, Leonardo H. KRÜGER. 17 de outubro de 2017

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Análise do acidente do Titanic

Adriane Machado Cinthia Zamin Cavassola Luiza Hoffelder da Costa REGRESSÃO EM DADOS DE CONTAGEM: UM ESTUDO SOBRE A QUANTIDADE DE BICICLETAS ALUGADAS

Precificação de apartamentos para o bairro Água Verde em Curitiba

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018

Modelo Linear Generalizado Distribuição de Poisson

Análise de Dados Categóricos

Modelo de regressão Beta

1 z 1 1 z 2. Z =. 1 z n

CONHECIMENTOS ESPECÍFICOS

Modelos Lineares Generalizados

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Regressão Linear Múltipla no R MAE-0217: ESTATÍSTICA DESCRITIVA MAIO DE 2017 PROFESSORA: MÁRCIA D ELIA BRANCO

Análise dados de diagnóstico de câncer de mama

Modelos para dados de contagem

Modelos Lineares Generalizados - Análise de Resíduos

Modelos Lineares Generalizados - Análise de Resíduos

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Modelo de regressão estável aplicado a econometria

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR RODOLFO PIROLO GATZKE - GRR THAYS COSTA S. SOUZA - GRR

RELAÇÃO ENTRE EXPECTATIVA DE VIDA E CARACTERÍSTICAS DOS ESTADOS NORTE-AMERICANOS ENTRE OS ANOS DE 1969 E 1970

Exemplos Regressão Dados de Contagem

Análise de dados em Geociências

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

Métodos Estatísticos Avançados em Epidemiologia

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Modelos Binomial e Poisson

Exemplo Falhas em Tecidos

BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES

4 Modelos Lineares Generalizados

MAE Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA

Coleta e Modelagem dos Dados de Entrada

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Correlação e Regressão

3 Dados e metodologia

Coleta e Modelagem dos Dados de Entrada

Aplicação dos modelos lineares generalizados na análise do

Regression and Clinical prediction models

Exemplo Ausências Escolares

Análise de Resíduos. investigar características que comprometem a validade do MRLS:

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

MAE116 Noções de Estatística

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

CONHECIMENTOS ESPECÍFICOS

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Modelo Linear Generalizado Exponencial Potência

Modelagem de dados complexos por meio de extensões do modelo de

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

Coeficiente de determinação R 2 no modelo de regressão linear normal

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

Modelos de Regressão Linear Simples - Análise de Resíduos

Introdução à Regressão Logística Quantílica

Modelos de Regressão Linear Simples - Análise de Resíduos

CONHECIMENTOS ESPECÍFICOS

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1

Estatística Computacional Profª Karine Sato da Silva

Modelos de regressão para dados correlacionados. Cibele Russo

Medidas de Posição ou Tendência Central

Importância da estatística 17. O que é a Estatística? 18

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4

AGA Análise de Dados em Astronomia I. 1. Introdução

Exemplo Número de Clientes da Loja

Transcrição:

Universidade Federal do Paraná Departamento de Estatística Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha CE22 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR2124686 Guilherme Henrique Stadler de Mello GRR2124678 Simone Matsubara GRR2124663 Curitiba, 24 de Novembro de 217

Sumário 1 Introdução 2 2 Material e Métodos 3 2.1 Material.................................................. 3 2.2 Métodos.................................................. 3 3 Análise Descritiva 4 3.1 Transformando as variáveis....................................... 6 4 Ajuste dos Modelos de Regressão 6 Escolha do Modelo 6 6 Análise de Diagnóstico 8 6.1 Quase-verossimilhança.......................................... 9 7 Considerações finais 9 1

1 Introdução A Grã-Bretanha, antiga Albion, é uma das muitas Ilhas Britânicas da Europa que abrange a maior parte do Reino Unido. Nesta ilha estão três das quatro nações britânicas: Escócia, na parte norte; Inglaterra, no sul; e País de Gales, a oeste. Por ser uma ilha relativamente pequena e contar com uma malha ferroviária extensa, viajar de trem em distâncias médias e longas é fácil e confortável. A rede ferroviária da Grã-Bretanha está composta por 24 companhias particulares, todas regulamentadas pela National Rail, onde atendem mais de 2. estações. De Leste a Oeste, de Norte a Sul, a maioria das viagens se realiza em trens de Alta Velocidade. De uma forma geral, o transporte ferroviário de passageiros é considerado bastante seguro para os seus utilizadores. No âmbito ferroviário, um acidente é sinônimo de um acontecimento súbito, indesejado ou involuntário, ou de uma cadeia de acontecimentos dessa natureza com consequências danosas. Considera-se como acidente grave qualquer colisão ou descarrilamento de comboios que tenha por consequência, no mínimo, um morto, ou cinco ou mais feridos graves, ou danos significativos no material circulante, na infraestrutura ou no ambiente e qualquer outro acidente semelhante com impacte manifesto na regulamentação de segurança ferroviária ou na gestão da segurança. Os dados provém da fonte: Andrew W. Evans (27). Segurança ferroviária e privatização ferroviária na Grã-Bretanha, Análise e Prevenção de Acidentes, Vol. 39, pp. -23. 2

2 Material e Métodos 2.1 Material O estudo foi realizado com 7 observações, com o objetivo de modelar a probabilidade de morte por colisão de trem entre os anos de 1946 e 22; Os dados do último ano da pesquisa, de 23, foram desconsiderados, pois estavam incompletos, possivelmente foi interrompido na metade do ano, ou antes. As variáveis presentes neste estudo são: Ano: Ano observado Km: Trilho da linha principal em milhões de Quilômetros Inv: Número de acidentes de invasão Fat: Números de acidentes fatais Coli: Número de acidentes por colisão Mort: Mortes por colisão de trem/veículo rodoviário (variável resposta) Acit: Número total de acidentes com o trem em movimento e com o trem parado Acif: Número total de acidentes fatais com o trem em movimento e com o trem parado. Tabela 1: Primeiras 6 observações do conjunto de dados. Ano Km Inv Fat Coli Mort Acit Acif 1946 6 9 38 7 16 37 378 1947 71 99 9 2 298 34 1948 89 48 11 2 273 273 1949 613 4 278 281 19 618 13 14 19 247 2 191 6 7 47 7 8 231 233 2.2 Métodos Como temos uma contagem de eventos em unidades de tempo/espaço com ocorrências dos eventos sendo independentes e identicamente distribuídos, primeiramente utilizaremos a distribuição Poisson com função de ligação logarítmica, pois é o modelo mais comum usado para estas situações. O modelo de Poisson é apresentado por: f(y, µ) = e µ µ y E seguindo a função de ligação logarítmica, o modelo log-linear é: y! y i x i P oisson(µ i ) log(µ i ) = β + β 1 x i1 + β 2 x i2 +... + β p x ip. 3

3 Análise Descritiva A fim de conhecer melhor os dados com os quais estamos estudando, e prever possíveis problemas e sugestões de modelagem, mostraremos a seguir uma análise descritiva e exploratória dos dados. ## Ano Km Inv Fat ## Min. :1946 Min. :372. Min. :. Min. :. ## 1st Qu.:196 1st Qu.:43. 1st Qu.: 1. 1st Qu.: 2. ## Median :1974 Median :42. Median : 2. Median : 7. ## Mean :1974 Mean :492.9 Mean : 3.421 Mean : 16.74 ## 3rd Qu.:1988 3rd Qu.:84. 3rd Qu.:. 3rd Qu.: 17. ## Max. :22 Max. :618. Max. :. Max. :12. ## Coli Mort Acit Acif ## Min. : 1. Min. : 1. Min. : 16. Min. : 16. ## 1st Qu.: 3. 1st Qu.: 4. 1st Qu.: 48. 1st Qu.: 49. ## Median : 6. Median : 7. Median : 73. Median : 73. ## Mean : 6.474 Mean : 9.88 Mean :114.4 Mean :116.4 ## 3rd Qu.:. 3rd Qu.:13. 3rd Qu.:183. 3rd Qu.:184. ## Max. :14. Max. :31. Max. :37. Max. :378. Devido a amplitude assimétrica observada em algumas covariáveis, exploraremos outros métodos de analisar estas assimetrias. O histograma é uma alternativa para observar a forma da distribuição dos dados. Na figura 1, podemos observar uma predominância de assimetria a esquerda, naquelas mesmas covariáveis que observamos ter uma amplitude assimétrica no summary acima. Ano Km Inv Fat 8 2 3 2 4 6 4 2 1 2 1 3 2 194 196 198 2 3 4 6 2 4 6 8 2 6 Coli Acit Acif Mort 14 12 1 1 2 8 6 4 2 1 2 4 6 8 12 2 3 4 2 3 4 1 2 3 Figura 1: Histogramas 4

Para algumas das variáveis, notamos que o terceiro quartil, é menor que a metade do valor máximo das observações, o que pode ser devido à uma assimetria à esquerda, decidimos então, observar estas variáveis em um gráfico de box-plot. Fat Acit Acif 12 8 3 3 2 3 6 2 2 4 2 1 Decidimos por exibir, o gráfico construído das correlações, para mostrar a correlação perfeita existente entre duas covariáveis, Acit e Acif, que respectivamente são: Número total de acidentes com o trem em movimento/trem parado e Número total de acidentes fatais com o trem em movimento/trem parado. 1 Ano.8.73 Km.6.7.4 Inv.4.48.44.61 Fat.2.66.6.43.29 Coli.2.8.49.46.27.87 Mort.4.92.8.7.4.61.6 Acit.6.92.8.7.4.61.6 1 Acif.8 1 Figura 2: Gráfico de Correlação Apresentada na tabela a seguir, estão algumas das observações destas covariáveis: Ano Acit Acif 1946 37 378 1947 298 34 1948 273 273 1949 278 281 19 247 2 191 231 233 192 249 24 193 278 286 Estas duas variáveis, explicam a mesma coisa e não faria sentido manter as duas no estudo, por conta desse ocorrido, optamos pela remoção da covariável Acit, dado que, pelo o que pudemos observar, todas as observações desta covariável, estão também contidas na covariável Acif, com a diferença de que nesta, estão incluídas as vítimas fatais dos acidentes.

3.1 Transformando as variáveis Dado que na análise descritiva dos dados, obtivemos algumas variáveis assimétricas, aplicaremos uma transformação logarítmica na variável Acif, para simetrizar a distribuição da mesma, e para as outras duas (Inv e Fat), manteremos como estão, pois elas contém zeros, o que gera erro ao criar o modelo. log(acif) 1 2. 3. 4.. 4 Ajuste dos Modelos de Regressão Como citado no início deste relatório, vamos primeiramente considerar o modelo GLM, com resposta Poisson: log(µ i ) = β + β 1 Ano i + β 2 Km i + β 3 Inv i + β 4 F at i + β Coli i + β 6 log(acif i ) E também vamos ajustar um M.L.G com distribuição Binomial Negativa e função de ligação logaritimica. y i x i BinomialNegativa(µ i, k) log(µ i ) = β + β 1 Ano i + β 2 Km i + β 3 Inv i + β 4 F at i + β Coli i + β 6 log(acif i ) Escolha do Modelo Para selecionarmos um dos modelos, utilizaremos o Critério de informação AIC e a verossimilhança dos modelos. # ajuste aic loglik #1 poisson 28.76-13.83 #2 bin. negativa 286.9916-13.498 Apesar de os dois modelos estarem com as verossimilhanças muito similares, o modelo pelo qual optaremos, será o de Poisson, pois apresentou menor AIC e uma maior verossimilhança. 6

Para verificar a adequação do modelo ajustado, usaremos um gráfico Normal de probabilidades com envelopes simulados. Gráfico Normal de Probabilidades Resíduos.. 1. 1. 2. 2. 3... 1. 1. 2. 2. Percentil da N(,1) Podemos verificar a adequação do modelo ajustado, pois os resíduos estão dispersos aleatoriamente dentro do envelope. Para analisar quais são as variáveis explicativas, foram testados os métodos de seleção de variáveis Forward, Backward e Stepwise, todos obtiveram o mesmo resultado, tendo que apenas as variáveis Inv e Coli são significativas. ## ## Call: glm(formula = Mort ~ Inv + Coli, family = "poisson", data = dados1) ## ## Coefficients: ## (Intercept) Inv Coli ##.938.343.132 ## ## Degrees of Freedom: 6 Total (i.e. Null); 4 Residual ## Null Deviance: 27.9 ## Residual Deviance: 7.61 AIC: 279.3 Deixando o modelo da seguinte maneira: log(µ i ) =, 938 +, 343Inv i +, 132Coli i 7

6 Análise de Diagnóstico Vamos primeiramente avaliar a qualidade do nosso ajuste. Normal Q Q Plot res 1 1 2 3 Sample Quantiles 1 1 2 3 2 3 4 Index 2 1 1 2 Theoretical Quantiles Figura 3: Resíduos Quantílicos Aleatorizados Como vemos na Figura 3, os resíduos estão dispersos dentro do intervalo aceitável e em torno de zero. No gráfico da direita, os resíduos aparentam ter uma aderência razoável à distribuição Normal, apesar de um desvio na cauda superior. Resíduos.. 1. 1. 2. 2. 3... 1. 1. 2. 2. Percentil da N(,1) Figura 4: Gráfico Normal de Probabilidades Devido ao desvio apresentado no Q-Q plot, figura 3, foi verificada a adequação do modelo à distribuição Normal, por meio de um envelope simulado, onde os resíduos se apresentaram dispersos dentro do intervalo esperado. Portanto assim, podemos concluir que o ajuste está correto. Em uma análise de resíduos do modelo, foi observado que aparentemente não existem candidatos a outliers e que o modelo atende os pressupostos. 8

6.1 Quase-verossimilhança Pode ser usado como um modelo alternativo, quando se tem dados com superdisperção. modqv <- glm(mort ~ Ano + Km + Inv + Fat + Coli + lacif, data = dados1, family = 'quasipoisson') Portanto, testamos um modelo de quase-verossimilhança para vermos se derrepente ele mostra um melhor ajuste que o modelo de Poisson escolhido anteriormente, mas realizadas as análises de diagnóstico, constatamos que ele praticamente não diferiu com as análises que obtivemos com o modelo de Poisson. 7 Considerações finais Pudemos concluir que das seis variáveis inicialmente presentes no estudo, apenas duas conseguiram explicar o principal motivo de mortes por colisão ocorridos nas redes ferroviárias na Grã Betanha, que foram por invasão (de trilho) e pela quantidade de acidentes que acorrem todo ano, e que por vezes causam mortes. 9