Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016 Modelos Lineares Generalizados Lais Hoffmam Simone Matsubara Willian Meira Yasmin Fernandes Curitiba 2018
Sumário 1. Resumo... 3 2. Introdução... 3 3. Metodos e Materiais... 3 3. Ajuste do Modelo Regressão Generalizado... 7 4. Escolha do Modelo... 8 5. Análise do Modelo Ajustado Selecionado... 8
1. Resumo O presente estudo tem como objetivo analisar e explicar a relação dos óbitos no trânsito por município, do Estado de Santa Catarina, com um conjunto de covariáveis explicativas. A metodologia será por Modelos Lineares Generalizados, sendo aplicados vários modelos com diferentes funções de ligações para dar entrada as analises e chegar ao modelo que se encaixe melhor aos dados propostos e tirar as melhores conclusões possíveis. As variáveis características mencionadas são: Número de óbitos em acidentes de trânsito, Número de veículos a cada 100 habitantes, Densidade demográfica por município, em habitantes por Km², Percentual de população urbana por município, Percentual de população alfabetiza por município, Percentual de população desempregada por município, Renda média percapita por município e Índice de desenvolvimento humano do município. 2. Introdução O estudo foi realizado com dados retirados do Departamento de Informática do Sistema Único de Saúde (DATASUS), através do link: http://www2.datasus.gov.br/datasus e IPEA DATA http://www.ipeadata.gov.br/default.aspx São dados referentes a óbitos decorrentes de acidentes de trânsito, do Estado de Santa Catarina do ano de 2016. O óbito foi classificado de acordo com CID10, preenchido pelo médico 3. Métodos e Materiais A base de dados refere-se ao estado de Santa Catarina, dividido por municípios. A maior parte dos dados levantados foram retirados do site do DATASUS. Entre eles, o número de óbitos em acidentes de transporte e população residente estimada, referente ao ano 2016. Na mesma plataforma, foram coletados dados de renda per capita, total de desempregados e
alfabetizados, sendo ano 2010 a informação mais atualizada. Coletamos também algumas variáveis sócio-demográficas no site do Ipeadata, como população urbana e IDH referente ao ano 2000, e área geográfica (2010). A informação sobre a frota de veículos foi coletada no registro de emplacamento do Denatram, referente dezembro 2016. As variáveis utilizadas foram: obit - Número de óbitos em acidentes de trânsito * vphab - Número de veículos a cada 100 habitantes. dens - Densidade demográfica por município, em habitantes por Km². purb - Percentual de porpulação urbana por município. palf - Percentual de porpulação alfabetiza por município. * pdes - Percentual de porpulação desempregada por município. * rmed - Renda média percapita por município * idh - Índice de desenvolvimente humano do município
2.1 Medidas de Resumo e gráficos de frequência Gráfico 1: Medidas de Frequência Gráfico 2: BoxPlots das variáveis A variável Óbitos por acidentes de trânsito por município possui uma grande concentração na faixa 0, ou seja, nenhum óbito. Observando o gráfico acima, temos que as medias das covariáveis são:
Velocidade a cada 100 habitantes: 67 veículos por município. População urbana : 44% por município. Alfabetizados : 69% por município. Desempregados: 2 % por município. Renda : 755 reais por municipio. IDH : 79% por municipio. De acordo com o boxplot e histograma, há uma grande assimetria na covariável Densidade Demográfica. Vale a pena fazer uma transformação nesta variável, aplicando log. Após aplicação do log, temos uma melhor distribuição dos dados como mostramos no gráfico abaixo. Gráfico 3: Histograma e BoxPlot da Variável Densidade transformada
Gráfico 4: Correlação das variáveis Analisando o gráfico 4, temos que a maior correlação com nossa variável resposta é a da variável log(densidade) demográfica e entre as covariaveis a maior correlação é a renda media com IDH 3. Ajuste do Modelo Regressão Generalizado Foram usados quatro ajustes com modelos Poisson. Primeiramente utilizamos a função GLM com a ligação canônica logarítmica. Em seguida testamos 3 ajustes usando o pacote Gamlss, onde foi avaliado também a questão de inflação de zeros, visto que nossa base apresenta muitos municípios onde não foi registrado nenhum óbito. Porém, nenhum dos modelos apresentou um ajuste satisfatório aos dados. Por conta disso, foi avaliado também alguns modelos com distribuição. Binomial Negativa. Nestes modelos, foi feito um ajuste usando a função glm.bn do pacote Mass e outros cinco ajustes com o auxílio do pacote Gamlss. Destes 5 modelos, os três primeiros foram com as distribuições Binomial Negativa Tipo I (NBI), Tipo II (NBI) e Família Binomial Negativa (NBF). E os últimos dois modelos foram com a Binomial Negativa Inflacionada de Zero (ZINBI), testando com e sem os componentes de excesso de zeros.
Os modelos com Binomial Negativa se mostraram mais adequados ao nosso estudo, uma vez que ela comporta melhor dados com superdisperção e até mesmo a inflação de zeros. 4. Escolha do Modelo Na tabela a seguir, estão os ajustes dos modelos trabalhados: Tabela 1 : Ajustes dos modelos Escolhemos o modelo que resultou o terceiro menor AIC de 1.293,4 e verossimilhança de 6.377,02 em função do valor da deviance residual ser próxima ao número de graus de liberdade. A expressão do modelo fica da seguinte forma: y i x i ~ Binomial Negativa (μ i, ) g(μ) = β 0 + β 1 vphab i + β 2 purb i + β 3 palf i + β 4 pdes i + β 5 rmed i + β 6 idh i 5. Análise do Modelo Ajustado Selecionado 5.1 Resumo do Modelo
Observamos que o modelo pode ainda ser melhorado. 5.2 Reajuste do Modelo Para filtrar algumas variáveis que não são interessantes para nosso o modelo vamos usar o algoritmo stepwise para seleção de variáveis. Sendo assim, o novo modelo fica da seguinte forma: Todos as estimativas foram significativas para o modelo a 95% de confiança. A expressão do modelo final é dada da seguinte forma: y i x i ~ Binomial Negativa (μ i, ) g(μ) = β 0 + β 1 pdes i + β 2 purb i + β 3 palf i + β 4 idh i 5.3 Análise de Resíduos O gráfico de resíduos simulados permite verificar a adequação do modelo ajustado mesmo que os resíduos não tenham uma aproximação adequada com a distribuição Normal. Neste tipo de gráfico espera-se, para um modelo bem ajustado, os pontos (resíduos) dispersos aleatoriamente entre os limites do envelope.
Parece estar dentro do esperado com alguns pontos do envelope que alguns observamos como outliers. Gráfico 5 Análise de resíduos
Os resíduos estão bem distribuídos não observamos nenhum padrão sistemático, de acordo com os gráficos acima. Gráfico 6 Medidas de Influência Existem candidatos a Outliers porém não temos uma justificativa plausível para remover da base. 6. Conclusão Conseguimos modelar os dados, entretanto poderíamos ter um melhor ajuste quem sabe com um outro tipo de método mais especifico. As variáveis Densidade Geografica população urbana e idh estão incrementando de forma positive na resposta já a variável população alfabetizada