Modelos lineares generalizados: aplicação a dados de acidentes rodoviários

Tamanho: px
Começar a partir da página:

Download "Modelos lineares generalizados: aplicação a dados de acidentes rodoviários"

Transcrição

1 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL Modelos lineares generalizados: aplicação a dados de acidentes rodoviários Dissertação Mestrado em Gestão de Informação Especialização em Gestão e Análise de Dados Ana Maria Tavares Alvarenga Dissertação orientada pela Prof.ª Doutora Maria Isabel Calisto Frade Barão Dissertação co-orientada pela Prof.ª Doutora Ana Luísa do Carmo Correia Respício 2015

2 Agradecimentos Gostaria de agradecer e dedicar esse trabalho à minha família. Em especial a minha mãe sempre muito presente, me apoiando e dando força. Agradeço a professora Doutora Maria Isabel Calisto Frade Barão, minha orientadora, pela paciência, incentivo e todo o apoio dado no decorrer deste estudo. Também agradeço a professora Doutora Ana Luísa do Carmo Correia Respício pelas sugestões e críticas que foram importantes para a concretização desta dissertação. A todos que de alguma forma contribuíram para a realização deste trabalho, muito obrigada! ii

3 Índice 1. Introdução Objetivo Estrutura da tese Revisão da literatura Modelos lineares generalizados Família Exponencial Características do Modelo linear generalizado Estimação dos parâmetros Testes de hipóteses Teste de Wald Teste da razão de verosimilhanças Seleção de modelos Avaliação do modelo Deviance Critério de Informação Análise de resíduos Observações influentes Tipos de gráficos Modelo de regressão Logística Formulação Estimação dos coeficientes de regressão Qualidade de ajustamento Hosmer e Lemeshow Qui-Quadrado de Pearson Capacidade preditiva do modelo Curva ROC Tabela de contingência Interpretação dos coeficientes de regressão Variável independente dicotómica Variável independente policotómica Variável independente contínua Modelo de regressão de Poisson Descrição Estimação dos coeficientes do modelo Qualidade de ajustamento Modelo de regressão Binomial Negativa Descrição Estimação dos coeficientes do modelo Qualidade de ajustamento Análise e modelação de dados iii

4 7.1. Base de dados Dados da severidade de acidentes rodoviários Dados de ocorrências de acidentes rodoviários por dia Estimação dos modelos Regressão Logística Regressão de Poisson Regressão Binomial Negativa Conclusão Bibliografia: Anexos iv

5 Lista de Tabelas Tabela 7.1: As variáveis em estudo e respetivas categorias Tabela 7.2: Frequência de severidade dos acidentes rodoviários segundo os dias da semana Tabela 7.3: Frequência de severidade dos acidentes rodoviários segundo os meses Tabela 7.4: Frequência de severidade dos acidentes rodoviários segundo a hora do dia Tabela 7.5: Frequência de severidade dos acidentes rodoviários segundo a condição de iluminação Tabela 7.6: Frequência de severidade dos acidentes rodoviários segundo o tipo de veículos Tabela 7.7: Frequência de severidade dos acidentes rodoviários segundo o género do condutor Tabela 7.8: Frequência de severidade dos acidentes rodoviários segundo a faixa etária do condutor Tabela 7.9: Teste de Qui-Quadrado entre as variáveis explicativas e a variável severidade de acidentes rodoviários Tabela 7.10: Ajuste de regressão logística a cada uma das variáveis explicativas Tabela 7.11: Comparação entre os modelos (backward, both e forward) e o modelo nulo Tabela 7.12: Resultado para comparação dos modelos de regressão Logística (modelo1 e 2) Tabela 7.13: Modelo de regressão Logística (Modelo1) Tabela 7.14: Estimativas dos parâmetros, estatística de Wald e valor p (Modelo3) Tabela 7.15: Tabela de classificação do modelo Tabela 7.16: valores obtidos para a razão da chance (Odds ratio) e intervalo de confiança Tabela 7.17: Regressão Logística ajustado aos dados de acidentes com peões na zona rural Tabela 7.18: Regressão logística ajustado aos dados de acidentes com peões na zona urbana.. 54 Tabela 7.19: resultados comparativos da probabilidade de ocorrência de acidentes não ligeiros entre zona rural e urbana Tabela 7.20: Resultados de ajuste de regressão de Poisson de cada variável explicativa Tabela 7.21: diferença entre a deviance do modelo ajustado com regressão de Poisson e a deviance do modelo nulo Tabela 7.22: Resultados de AIC e %explicada da deviance para selecionar o modelo de Poisson Tabela 7.23: Resultado de ajustamento do modelo de regressão de Poisson (modelo1) Tabela 7.24: Resultados de AIC e % explicada da deviance para selecionar o modelo de regressão Binomial Negativa Tabela 7.25: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo1) 62 v

6 Lista de Figura Figura 7.1: Boxplot e gráfico de barras para a variável idade do veículo Figura 7.2: Distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano Figura 7.3: Distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os tipos de veículos Figura 7.4: Distribuição de acidentes rodoviários segundo a hora do dia e as condições de iluminação Figura 7.5: Distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor Figura 7.6: Distribuição de acidentes rodoviários entre 2005 e Figura 7.7: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos dados de acidentes com peões de 2005 a Figura 7.8: gráfico da Curva ROC (modelo de regressão Logística) Figura 7.9: Gráficos normais de probabilidades referentes ao modelo de regressão de Poisson (a) e ao modelo de regressão Binomial Negativa (b) Figura 7.10: Gráficos da análise de resíduos referentes ao modelo de regressão Binomial Negativa vi

7 Resumo Os acidentes rodoviários são considerados um importante problema de saúde pública a nível mundial. Segundo o relatório da organização mundial de saúde (OMS, 2013), em 2030 os acidentes rodoviários estarão entre as cinco principais causas de morte no mundo. A investigação sobre os fatores que influenciam a ocorrência de acidentes rodoviários é realizada com o intuito de reduzir o número de acidentes rodoviários e a sua severidade, assim como evitar os custos pessoais, sociais e económicos que lhe estão associados. Nesta dissertação, a análise de ocorrência de acidentes rodoviários abordou duas questões. A primeira foi identificar os fatores que influenciam a probabilidade de ocorrerem acidentes não ligeiros, aplicando a regressão Logística. A segunda questão foi modelar a ocorrência de acidentes rodoviários por dia, aplicando a metodologia de regressão de Poisson. No entanto, os modelos desenvolvidos apresentaram o problema de sobredispersão e a alternativa foi a regressão Binomial Negativa. Os modelos foram desenvolvidos com aplicação a um conjunto de dados relativos a acidentes ocorridos entre 2005 e 2013 na Grã-Bretanha a nível nacional. Para a análise da regressão Logística, tomou-se como variável resposta a severidade de acidentes, em que as vítimas são peões. Foram considerados os dados de acidentes com peões ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 a 31 de Dezembro de Nesta análise os resultados demonstraram que o modelo de regressão Logística é adequado para explicar a severidade dos acidentes. As variáveis explicativas utilizadas foram o tipo de veículos, o limite de velocidade nas estradas, as condições de iluminação, o género e a faixa etária dos condutores, o dia da semana, a hora do dia e a idade do veículo. Estas variáveis foram estatisticamente significativas, mas as que tiveram o maior impacto sobre a severidade de acidentes foram o limite de velocidade nas estradas, as condições de iluminação e o tipo de veículos. Também foi feita uma comparação da severidade de acidentes com peões entre ocorrências na zona rural e urbana, usando as mesmas variáveis explicativas da análise anterior. A diferença encontrada reside no maior impacto que tem o limite de velocidade na severidade dos acidentes ocorridos na zona rural, em comparação com a zona urbana. Quanto à análise do número de acidentes ocorridos por dia, os modelos desenvolvidos com a regressão Binomial Negativa foram mais adequados para ajustar aos dados que os desenvolvidos com a regressão de Poisson. As variáveis explicativas utilizadas foram o dia da semana, o facto desse dia ser feriado ou não, os meses ou as estações do ano. Os resultados da análise demonstraram que o número de acidentes ocorridos por dia é melhor explicado pelas variáveis dia da semana (com sete categorias), meses do ano e os dias feriados. Palavras-Chaves: Modelos de regressão Logística, modelos de regressão, modelos de regressão Binomial Negativa, severidade de acidentes, acidentes rodoviários. vii

8 Abstract Road accidents are considered an important public health problem worldwide. According to the report of the World Health Organization (WHO, 2013), in 2030 road accidents will be among the five leading causes of death worldwide. Research on the factors influencing the occurrence of road accidents is performed with the aim of reducing the number of road accidents and its severity, as well as avoiding the personal, social and economic costs associated with it. In this thesis, the analysis of the occurrence of road accidents addresses two issues. The first is identifying the factors that influence the probability of non-slight accidents, applying the Logistic regression methodology. The second issue is modelling the occurrence of daily road accidents applying the Poisson regression methodology. However, the models developed showed an over-dispersion problem and the alternative was the Negative Binomial regression. The models were developed with application to a set of data on accidents that occurred from in Britain at national level. For the Logistics regression analysis the response variable is the severity of the accidents where the victims are pedestrians. Data consists of accident data involving pedestrians that have occurred in Britain from 1 January 2005 to 31 December In this analysis the results showed that the Logistic regression model is adequate to explain the severity of accidents. The explanatory variables used were the type of the vehicles, the speed limit on the roads, lighting conditions, gender and age group of drivers, day of the week, time of the day and the age of the vehicle. These variables were statistically significant, but the ones that had the greatest impact on the severity of accidents were the speed limit on the roads, the lighting conditions and the type of the vehicles. A comparison on the severity of accidents involving pedestrians between rural and urban areas was also undertaken using the same explanatory variables. The difference was mainly the greatest impact of speed limit on rural areas. Regarding the analysis of the number of accidents per day, the models developed with the Negative Binomial regression were more appropriate to adjust the data than the models developed with the Poisson regression. The explanatory variables used were the days of the week, the months of the year, the seasons and holidays. The results of the regression analysis showed that the number of daily accidents is best explained by the day of the week (seven categories), the months of the year and the holidays. Keywords: Logistic regression models, Poisson regression models, Negative Binomial regression models, severity of accidents, road accidents. viii

9 1. Introdução A nível mundial, cerca de 1.24 milhões de pessoas morrem em acidentes rodoviários anualmente, e entre 20 a 50 milhões de pessoas sofrem ferimentos ligeiros ou graves (WHO, 2013). As consequências dos acidentes rodoviários resultam em custos elevados para a sociedade, para a saúde e para a economia de cada país. A estimativa a nível económico das consequências dos acidentes rodoviários é de 1% do produto interno bruto (PIB) nos países de rendimento baixo, 1.5% nos países de rendimento médio, e 2% nos países de rendimento alto (Peden et al., 2004). Segundo a organização mundial de saúde (OMS), em 2030 os acidentes rodoviários estarão entre as cinco principais causas de morte no mundo, portanto os acidentes rodoviários continuam a ser um importante problema de saúde pública. Há, em todo o mundo, uma necessidade de se melhorar a segurança rodoviária com o objetivo de reduzir o número de vítimas nas estradas. Muitos acidentes são causados por fatores que são conhecidos e podem ser evitados. Estes incluem a condução a alta velocidade ou sob a influência de álcool, a falta do uso de cintos de segurança, não respeitar os utilizadores de estrada mais vulneráveis, como peões e ciclistas, e infraestruturas rodoviárias inseguras. Em muitos países desenvolvidos o número de vítimas em acidentes rodoviários tende a diminuir, devido à aplicação de medidas adequadas para melhorar a segurança rodoviária. A Organização para a Cooperação e Desenvolvimento Económico (OCDE), que inclui a maioria dos países desenvolvidos, estabeleceu um Sistema de Seguranças com metas desafiadoras para seus membros em direção à filosofia a longo prazo, denominada visão zero, cujo objetivo é reduzir o número de mortos e ferimentos graves a zero. Nestes países, a fatalidade foi reduzida em 50%, desde 1970, apesar do aumento do número de veículos motorizados (OCDE, 2008). Para tal objetivo são aplicadas medidas sistemáticas e métodos educacionais que permitem modificar o comportamento dos participantes no tráfego. As medidas sistemáticas são direcionadas aos veículos, a via, o sistema legal e fiscalização (Raia Jr. e Santos, 2005) Objetivo O objetivo deste trabalho é desenvolver modelos estatísticos que permitam identificar fatores associados à ocorrência de acidentes rodoviários. Trata-se de uma questão de elevada importância, no âmbito da segurança rodoviária, pois permite às empresas responsáveis tomar medidas adequadas para melhor segurança nas estradas. Os modelos desenvolvidos correspondem a dois tipos de abordagem: modelos onde a variável resposta é qualitativa e modelos onde a variável resposta é quantitativa. Para a primeira abordagem, a variável resposta é qualitativa, assume apenas dois valores possíveis (0 e 1) que identificam as categorias da severidade dos acidentes, respetivamente, ligeiros e não ligeiros. Na segunda abordagem, a variável resposta é quantitativa, os valores correspondem ao número de acidentes ocorridos por dia. 1

10 Estas duas abordagens foram aplicadas neste trabalho, com base nos dados de acidentes ocorridos entre 2005 a 2013 na Grã-Bretanha a nível nacional Estrutura da tese Para além do presente capítulo, o trabalho foi organizado em sete capítulos. O capítulo 2 apresenta alguns estudos que abordaram o tema de análise nesta dissertação. O capítulo 3 apresenta de uma forma geral, a teoria sobre as metodologias utilizadas neste trabalho. Os capítulos 4, 5 e 6 seguem com a teoria das metodologias de uma maneira mais específica, descrevendo os modelos de regressão Logística, de Poisson e de Binomial Negativa, respetivamente. O capítulo 7 inicia com a apresentação e descrição das bases de dados, em seguida serão discutidos os resultados estatísticos dos modelos. Finalmente, no capítulo 8 são apresentadas as conclusões obtidas do trabalho. 2

11 2. Revisão da literatura Neste capítulo apresentam-se os principais trabalhos realizados no âmbito de estudo da ocorrência de acidentes rodoviários e das suas consequências. A investigação tem mostrado que a ocorrência de acidentes rodoviários e suas consequências estão associados a diversos fatores, dos quais podemos citar fatores individuais e fatores externos ou ambientais. A nível individual parecem ser mais comuns as variáveis como a faixa etária e o género dos condutores. Relativamente aos fatores externos, pode referir-se a hora do dia, condições climáticas, características das estradas e características de veículos. Primeiramente apresentam-se os trabalhos realizados sobre os fatores que influenciam a ocorrência de acidentes a nível das suas consequências, sendo a variável resposta ou dependente de natureza qualitativa 0 e 1. Em seguida apresentam-se os trabalhos realizados sobre a ocorrência de acidentes a nível das frequências, onde a variável resposta é quantitativa Modelos de variável resposta qualitativa As consequências de acidentes rodoviários podem ser a nível económico, físico e psicológico. Em relação ao nível físico, quando não resulta em morte, as consequências dos acidentes podem levar a vários níveis de incapacidade, desde baixas limitações até limitações a longo prazo. Os investigadores analisaram as consequências referentes a nível físico considerando a severidade dos ferimentos como variável resposta e a sua representação em duas ou mais categorias. Quando esta variável é categórica (com duas categorias) a regressão Logística é a mais utilizada, e no caso de mais de duas categorias é mais comum a aplicação do modelo de resposta ordenada (Eluru et al. 2008). Por exemplo, Dissanayake & Lu (2002) e Eluru & Bhat (2007) analisaram a severidade de ferimento dos condutores com aplicação da regressão Logística e modelos de resposta ordenada, respetivamente. Segundo Dissanayake & Lu (2002) o aumento da velocidade do veículo e o ponto de impacto frontal aumentam a probabilidade de ferimentos graves, a utilização de um dispositivo de retenção diminui a probabilidade de ferimentos graves. Eluru & Bhat (2007) identificaram nas suas análises outros fatores que foram relevantes nas probabilidades, esses fatores são: tipo de veículo, limite de velocidade nas estradas e hora do dia. Zajac & Ivan (2003) e Eluru et al. (2008) realizaram uma análise sobre a severidade de ferimento dos peões com a utilização, respetivamente, da metodologia modelo probit ordenado e modelo logit ordenado, concluíram que existe uma associação estatisticamente significativa entre os condutores sob o efeito de álcool e a severidade de ferimento dos peões. Os resultados mostraram que os peões ou os ciclistas atingidos por um condutor alcoolizado têm maior probabilidade de sofrer ferimentos graves. Os resultados da análise de estudo realizado por Zajac & Ivan também indicaram outros fatores como o tipo de veículos, o tipo de áreas e a largura da via que foram 3

12 estatisticamente significativa. Para Eluru et al. (2008) os acidentes ocorridos nas estradas com limite de velocidade maior ou igual a 25 milhas/hora aumentam a probabilidade de ferimentos fatais e se ocorreram em interseção sinalizada diminui a probabilidade de ferimentos fatais em relação a outros locais. Também identificaram que se o impacto for frontal aumenta a probabilidade de ferimentos graves. Valent et al. (2002) aplicaram a regressão Logística para analisar a severidade de acidentes entre os condutores. Os resultados demonstraram que a chance de acidentes fatais aumenta com a idade dos condutores e os homens tem maior chance de sofrer ferimentos fatais em relação às mulheres. Também indicaram que há maior probabilidade de acidentes fatais no horário das 18:00 horas à meia-noite e principalmente às primeiras horas de manhã. Kong & Yang (2010) analisaram o impacto da velocidade do veículo sobre a severidade de ferimento dos peões com aplicação da regressão Logística e concluíram que os peões atingidos por um veículo a alta velocidade tem maior probabilidade de ferimentos graves. Ghamdi (2002) aplicou a regressão Logística para analisar a severidade de acidentes entre os indivíduos envolvidos nos acidentes. Os resultados demonstraram que a associação entre a severidade de acidente e as variáveis explicativas (localização e a causa de acidente) foram estatisticamente significativas. Milton, Shankar e Mannering, (2008) consideraram o modelo logit misto para estudar a variação das proporções de severidade de acidentes em segmentos rodoviários de acordo com as características do tempo, da estrada e do tráfego. A severidade de acidente é definida como nível de ferimento resultante de um acidente. Para desenvolver o modelo consideraram três níveis de ferimentos (apenas danos materiais, possíveis ferimentos e categoria ferimento grave) por segmento da rodovia. Segundo eles, esta abordagem permite à empresa de segurança rodoviária uma melhor compreensão do efeito das variáveis explicativas sobre a variação de acidentes e aperfeiçoar a segurança nas estradas Modelo de variável resposta quantitativa No caso de estudo onde a variável resposta é quantitativa, os modelos nomeadamente utilizados para a análise de ocorrência de acidentes rodoviários são o modelo clássico de regressão ou os modelos lineares generalizados. Hong et al. (2005) utilizaram o modelo clássico de regressão. Para o desenvolvimento do modelo classificaram as estradas em grupos de acordo com o número de faixas e existência de barreira mediana, assim para cada grupo estima-se o número médio de acidentes. As variáveis explicativas consideradas foram o número de cruzamentos, o número de vias de ligação, os sinais de trânsito e o volume do tráfego. Os modelos desenvolvidos foram três: modelo para estradas com duas faixas de rodagem, com quatro faixas de rodagem e existência de barreira mediana e modelo com quatro faixas de 4

13 rodagem sem barreira mediana. Os resultados demonstraram que todas as variáveis explicativas tiveram correlações positivas com a variável resposta número de acidentes, as mais significativas foram o número de interseções e os sinais de trânsito. O volume de tráfego é um fator considerado importante na análise de variação de acidentes, (Cools et al. 2009) estudaram o efeito da variável tempo sobre o volume de tráfego com aplicação do modelo clássico de regressão, e concluíram que o volume de tráfego aumenta com a temperatura máxima e diminui com o aumento da queda de neve, da chuva e da velocidade do vento. No entanto Miaou & Lum (1993) aplicaram o modelo clássico de regressão para estudar a relação entre a ocorrência de acidentes rodoviários e a geometria de estrada, e concluíram que o modelo não é adequado. O modelo clássico de regressão tem o pressuposto básico que a variável dependente seja contínua e normalmente distribuída com variância constante. Portanto este modelo não tem a propriedade distributiva necessária para descrever adequadamente eventos aleatórios discretos e não negativos, tais como os acidentes rodoviários. Ainda sobre os mesmos dados da análise aplicaram o modelo linear generalizado, referindo-se ao modelo de Poisson, mas também não foi o modelo adequado. Geralmente em dados de contagem a variância é maior que a média. Esta variação é conhecida como sobredispersão e a utilização do modelo de Poisson nesta circunstância pode causar a subestimação da variância dos parâmetros. A consequência disso é a estatística de teste sobrestimada enviesando a significância desta. Para ultrapassar o problema de sobredispersão vários investigadores como Milton & Mannering (1988), Abdel-Aty & Radwan (2000), e Memon (2012) propuseram a utilização da regressão Binomial Negativa. Milton & Mannering (1988) utilizaram a regressão Binomial Negativa para a análise da frequência anual de acidentes nas principais autoestradas do estado de Washington. As variáveis explicativas como o comprimento de seção de estrada, a percentagem de camiões em trânsito, a velocidade fixa, o número de faixas e as curvas horizontais foram consideradas para explicar a variação de acidentes. Os resultados demonstraram que a regressão Binomial Negativa é um método adequado para a previsão de acidentes rodoviários. Abdel-Aty & Radwan (2000) aplicaram a regressão Binomial Negativa aos dados de acidentes rodoviários ocorridos nas principais autoestradas de Florida. Os resultados demonstraram que o aumento de volume de tráfego, o excesso de velocidade, a largura da via estreita, o maior número de vias e as secções rodoviárias urbanas, aumentam a probabilidade de acidentes. Memon (2012) analisou a ocorrência de acidentes rodoviários na Grã-Bretanha a nível nacional. O objetivo foi desenvolver modelos de previsão de acidentes rodoviários que podem descrever e estimar com precisão o número de acidentes, das vítimas e dos veículos envolvidos nos acidentes. Para estimar o número de acidentes desenvolveramse três modelos. O primeiro modelo foi para estimar o número de acidentes por dia a nível 5

14 nacional, o segundo modelo considerou apenas 51 regiões da Grã-Bretanha, locais onde existem instalações policiais, e o terceiro modelo foi para estimar o número de acidente por mês. Em geral, para desenvolver estes modelos, utilizou-se a base de dados Stats19 (2013) com informação de acidentes, dos veículos e das vítimas. As variáveis explicativas selecionadas a partir desta base de dados foram as seguintes: dia da semana, meses do ano, hora, feriados e estações do ano. Também se utilizaram outras variáveis explicativas (selecionadas em outras bases de dados como a Estatística Nacional, o departamento de transporte e as estações meteorológicas da Grã-Bretanha) como o total da distância percorrida, o número de veículos por habitante, a densidade populacional e os fatores meteorológicos. As metodologias utilizadas foram os modelos lineares generalizados, sendo que a regressão Binomial Negativa se ajustou melhor aos dados que a regressão de Poisson. Muitas empresas de transportes utilizam estes modelos estatísticos para estimar o número de acidentes rodoviários através da relação com diferentes variáveis, e assim utilizar os conhecimentos obtidos para desenvolver os programas de intervenção da segurança rodoviária (Mannering et al. 2008, Memon, 2012). 6

15 3. Modelos lineares generalizados Em problemas onde o objetivo é estudar a relação entre as variáveis, os estatísticos utilizam modelos de regressão. Existem várias metodologias estatísticas que permitem explicar ou descrever a relação entre uma variável de interesse (variável resposta) e uma ou mais variáveis (variáveis explicativas). O modelo linear é talvez o mais utilizado para modelar esta relação. Este modelo assume, entre outras, que o valor esperado da variável resposta é uma combinação linear das variáveis explicativas e que a variável resposta segue a distribuição Normal. Esta teoria da modelação estatística é limitada, pois não pode ser utilizada se a distribuição da variável resposta é diferente da Normal. Para a resolução deste problema, o modelo linear generalizado foi introduzido em 1972, por Nelder e Wedderburn. São vários os modelos lineares generalizados, nesse estudo consideram-se apenas três: Regressão Logística, Poisson e Binomial Negativa. O modelo linear generalizado é uma extensão do modelo linear, onde a distribuição da variável resposta não tem de ser Normal, mas sim uma outra distribuição da família exponencial e a função que relaciona o valor esperado e o vetor de variáveis explicativas pode ser qualquer função diferenciável Família Exponencial No âmbito dos modelos lineares generalizados pressupõe-se que a variável resposta tem uma distribuição pertencente à família Exponencial, ou seja, que a sua função densidade de probabilidade (ou função massa de probabilidade) pode ser escrita na forma geral yθ b(θ) f(y θ; φ) = exp { + c(y, φ)}, a(φ) (3.1) Onde θ é o parâmetro de localização, φ é o parâmetro de dispersão, a(.), b(.) e c(.) são funções reais conhecidas. Pode ser demonstrado com um pouco de cálculo algébrico que o valor médio e a variância da distribuição desta variável aleatória são dados por b (θ) e a(φ) b (θ) respetivamente. Exemplo Se Y, variável aleatória resposta, segue uma distribuição Normal com valor médio µ e variância σ 2, a sua função densidade de probabilidade é dada por 7

16 f(y µ, σ 2 ) = 1 (y µ)2 exp ( σ 2π 2σ 2 ) = exp { 1 µ2 (yµ σ2 2 ) 1 2 (y2 σ 2 + ln(2πσ2 ))} Tem-se então que esta função é do tipo (3.1) com θ = µ, b(θ) = µ2 2, a(ϕ) = σ2 e c(y,φ) = 1 2 (y2 σ 2 + ln(2πσ2 )). Nesta situação, pode-se mostrar que E(Y)= b (θ) = µ e var(y)= a(φ)b (θ) = σ Características do Modelo linear generalizado Os modelos lineares generalizados são caracterizados pela seguinte forma: Componente aleatória Componente sistemática Função de ligação Componente aleatória Dado o vetor de covariáveis xi as variáveis aleatórias Yi são condicionalmente independentes com distribuição pertencente à família Exponencial, e portanto o seu valor médio é dado por E(Y i x i ) = µ i = b (θ i ), i = 1,, n Componente sistemática Defina-se o preditor linear η i como combinação linear das variáveis explicativas, dado por η i = x i T β Associado a cada valor da variável resposta, Yi, tem-se o vetor p 1 de covariáveis, x i T = (x i1,, x ip ), i = 1,, n, onde x ik, (k=1,, p) representa a k-ésima covariável para o i- ésimo indivíduo, e β = (β 1,, β p ) T um vetor p 1 de parâmetros desconhecidos. 8

17 Função de ligação A função de ligação para relacionar o valor esperado de Yi com o preditor linear η i é uma função g(.) tal que g(µ i ) = η i Estimação dos parâmetros Num modelo linear generalizado o parâmetro de interesse é β, sendo a sua estimação feita pelo método da máxima verosimilhança. O parâmetro de dispersão ϕ, quando existe, é considerado parâmetro perturbador e é estimado pelo método dos momentos. A verosimilhança também é considerada como base fundamental no processo inferencial, no caso dos testes de hipóteses sobre os coeficientes estimados e da qualidade do ajustamento. A função de verosimilhança do modelo, em função de β é dado por (Turkman e Silva, 2000; Hosmer & Lemeshow, 2013), n L(β) = f(y i θ i, φ) i=1 (3.2) n = exp { y iθ i b(θ i ) + c(y φ i, φ)} i=1 n = exp { y iθ i b(θ i ) n i=1 + c(y i, φ) φ i=1 } O logaritmo da verosimilhança é dado por ln(l(β)) = l(β) n = { y iθ i b(θ i ) + c(y φ i, φ)} i=1 n = l i (β) Onde l i é a contribuição de cada observação y i para a verosimilhança. i=1 Os estimadores de máxima verosimilhança para β são obtidos como solução do sistema de equações de verosimilhança. As equações de verosimilhança são dadas por: l(β) β j n = l i(β) = 0, j = 1, p (3.3) β j i=1 9

18 A equação (3.3) é a derivada do logaritmo da verosimilhança em relação ao parâmetro β e pode-se chamar de Score. Para obter estas equações escrevemos (Turkman e Silva, 2000), l i (β) = l i(θ i ) θ i (µ i ) µ i (ƞ i ) ƞ i (β), j = 0,1,, p β j θ i µ i ƞ i β j Tendo em atenção a função logaritmo da verosimilhança, e sabendo que b (θ i ) = µ i e var(y i ) = φb (θ i ), então: 1. l i(θ i ) = (y i µ i ) θ i φ 2. µ i = b (θ θ i ) = var(y i) i φ ƞ 3. i = x β ij ij Pelo que a equação dada em (3.3) passa a ser rescrita da seguinte maneira: l i (β) = (y i µ i ) φ µ i x β j φ var(y i ) ƞ ij i (3.4) Assim as equações de verosimilhança para β são dadas por n (y i µ i ) µ i x var(y i ) ƞ ij = 0 j = 1,, p (3.5) i i=1 A função score é obtida por s(β) = l(β) β n = s i(β) i=1 (3.6) em que s i (β) é o vetor de componentes l i(β) β j obtidas na equação (3.4). A matriz de covariância da função score é designada por matriz de informação de Fisher e é dada por: I(β) = E [ s(β) β ] (3.7) 10

19 É obtida considerando o valor esperado das segundas derivadas da função logaritmo da verosimilhança em relação ao parâmetro β. Tem-se, para famílias regulares, que 2 l i E ( ) = E ( l i l i ) β j β k β j β k = E [( (Y i µ i )x ij var(y i ) = E [ (Y i µ i ) 2 x ij x ik (var(y i )) 2 µ i ) ( (Y i µ i )x ik µ i )] ƞ i var(y i ) ƞ i = x 2 ijx ik var(y i ) ( µ i ) ƞ i ( µ 2 i ) ] ƞ i e, portanto, o elemento (j, k) da matriz de informação de Fisher é dado por: n E i=1 n ( 2 l i ) = x 2 ijx ik β j β k var(y i ) ( µ i ) ƞ i i=1 As equações de verosimilhança descrita em (3.5), não têm solução analítica, portanto são necessários métodos iterativos para a sua resolução Testes de hipóteses Depois de obter as estimativas para os coeficientes da regressão é necessário avaliar a sua significância, isto é, determinar se as variáveis independentes introduzidas no modelo estão significativamente associadas à variável dependente (Hosmer and Lemeshow, 2013). Para esse efeito recorremos à estatística de Wald e à estatística da razão de verosimilhanças Teste de Wald O teste de Wald é utilizada para testar a hipótese nula de que o parâmetro β j estimado é igual a zero. As hipóteses a testar são: H 0 : β j = 0 versus H 1 : β j 0, j = 1,, p A estatística de teste e a respetiva distribuição, sob a validade de H0 são: W j = β j se(β j) N(0,1) 11

20 Teste da razão de verosimilhanças O teste da razão de verosimilhanças é utilizado para comparar a qualidade do ajustamento de dois modelos aninhados, isto é, modelos em que um tem o subconjunto de variáveis do outro modelo. Também se pode dizer que este teste avalia a significância dos coeficientes estimados simultaneamente, ou seja verifica se o modelo estimado é globalmente significativo. Dados dois modelos aninhados, M p e M q, com um número de variáveis p e q respetivamente, tal que p < q, para comparar a qualidade de ajustamento de dois modelos aplica-se o teste da razão de verosimilhanças, sob a hipótese de que as q-p variáveis no modelo não apresentam acréscimo significativo na qualidade do modelo. Hipóteses a testar: H 0 : As q p variáveis no modelo não são significativos versus H 1 : As q p variáveis no modelo são significativos A estatística de teste e a respetiva distribuição, sob a validade de H0: G = 2 [ ln (L Mp (β)) ln (L M q (β))] χ2 q p (3.8) onde ln (L M p (β)) é a função logaritmo da verosimilhança do modelo M p com p variáveis e ln (L M q (β)) é a função logaritmo da verosimilhança do modelo M q com q variáveis Seleção de modelos A seleção de modelos é uma parte importante de toda a investigação em modelação estatística e envolve a procura de um modelo que seja o mais simples possível e que descreva bem os dados observados. Na prática há geralmente um elevado número de variáveis que podem ser potencialmente importantes para explicar a variabilidade da variável resposta. Isto implica a existência de vários modelos com combinações diferentes das variáveis explicativas para explicar o fenómeno em causa, o que torna o processo da 12

21 seleção mais difícil e mais moroso. Para facilitar o processo da seleção vários investigadores utilizaram o método de seleção stepwise. Método stepwise O método stepwise é um procedimento automático de seleção das variáveis em direção backward, forward e both. A direção forward inicia-se a partir de um modelo nulo e adiciona uma de cada vez as variáveis que podem ser significativas para explicar a variabilidade da variável resposta. O modelo nulo é um modelo simples com apenas um parâmetro que representa o mesmo valor médio µ para todas as observações yi. O caso da direção backward é ao contrário da direção forward, inicia-se a partir de um modelo completo e verifica a cada passo se uma variável pode ser ou não eliminada do modelo. O modelo completo ou saturado é o maior modelo que temos a possibilidade de considerar. Dada uma amostra com n observações, o número máximo de parâmetros para esse modelo é igual a n, isto é, um parâmetro para cada observação. O método both stepwise é uma combinação dos dois métodos (forward e backward). A fase de incluir ou excluir a variável do modelo é a fase de avaliação da significância das variáveis ou comparação dos modelos. Para isso utilizam-se medidas estatísticas adequadas para a sua avaliação Avaliação do modelo Deviance A deviance é uma medida estatística que avalia a significância dos coeficientes estimados e tem por base o teste da razão de verosimilhanças. Considerem-se dois modelos, o primeiro com a variável presente e o segundo sem essa variável. O teste da razão de verosimilhanças, descrito em 3.4.2, permite afirmar que, sob a hipótese do modelo com a variável presente ser o verdadeiro modelo, a deviance é dada por L(modelo com a variável ) D = 2Ln [ L(modelo saturado) ] χ 2 n q (3.9) Da mesma forma, se o modelo sem essa variável for o modelo verdadeiro, a deviance é dado por: L(modelo sem a variável ) D = 2Ln [ L(modelo saturado) ] χ 2 n p (3.10) 13

22 O valor D representa o desvio do modelo ajustado em relação ao modelo saturado. Quanto mais próximo o modelo ajustado, µ, estiver dos dados observados, y, menor será o valor de D. Para avaliar a significância de uma variável explicativa no modelo, calcula-se a diferença entre o valor de deviance do modelo sem a variável e o valor de deviance do modelo com a variável. O valor desta diferença coincide com a estatística de razão de verosimilhanças, sendo este valor comparado com o quantil da distribuição Qui-Quadrado e q-p graus de liberdade. Para um determinado nível de significância, rejeita-se a hipótese de que q-p variáveis explicativas incluídas no modelo não são significativos se o valor da estatística de teste da razão de verosimilhança for maior que o quantil de probabilidade (1- α) da distribuição Qui-Quadrado Critério de Informação A outra medida utilizada para avaliar o modelo é o critério de informação de Akaike desenvolvido por Hirotugu Akaike e proposto em Esta medida não é um teste de hipóteses, é uma estatística que tem por base o logaritmo da verosimilhança e penaliza o modelo com muitas variáveis. A medida AIC é dada por AIC = 2[Log(L) k] (3.11) Onde k é o número de parâmetros do modelo, e L é o valor da verosimilhança para o modelo estimado. A AIC é uma medida relativa da informação perdida por ajuste de um determinado modelo, permite comparar modelos aninhados ou não, contrariamente a medida deviance que compara apenas os modelos aninhados. Quanto menor for este valor menor será a informação perdida e, portanto, melhor será o ajustamento do modelo Análise de resíduos A análise de resíduos é útil, para avaliar a qualidade de ajustamento de um modelo no que diz respeito à escolha da distribuição, da função de ligação e de termos do preditor linear, como também identificar observações mal ajustadas pelo modelo (Turkman e Silva, 2000). As técnicas usadas para a análise de resíduos nos modelos lineares generalizados são semelhantes ao do modelo clássico de regressão. Para a i-ésima observação define-se o resíduo como a diferença entre o valor observado y i e o valor µ i estimado pelo modelo. 14

23 Resíduo de Pearson O resíduo de Pearson é calculado pela seguinte expressão: r ip = y i µ i V(µ i), i = 1, 2, n (3.12) O resíduo r ip corresponde à contribuição da i-ésima observação para o cálculo da estatística de Pearson generalizada, dada pela seguinte expressão: n X 2 = (y i µ i) 2 V(µ i) i=1 (3.13) onde V(µ i) é a função de variância estimada para a distribuição do modelo em estudo. Resíduo da deviance O resíduo da deviance correspondente à i-ésima observação é dado por r D = sinal(y i µ i) d i (3.14) Onde d i é a contribuição da i-ésima observação para a medida deviance definida em Resíduos standardizados Para uma análise adequada dos resíduos é necessário que eles sejam standardizados pelo respetivo desvio padrão. O resíduo de Pearson standardizado é dado por r ie = y i µ i V(µ i)(1 h ii ) (3.15) Onde h ii são os valores da diagonal da matriz de projeção H = W 1/2 X(X WX) 1 X W 1/2. O resíduo da deviance standardizado é dado por r D r DE = (1 h ii ) (3.16) 15

24 Observações influentes A ideia básica sobre os pontos de influência consiste em verificar a dependência do modelo estatístico em relação às várias observações que foram recolhidas e ajustadas (Cordeiro e Lima, 2006). Outlier é uma observação distante das outras em termos das variáveis explicativas, e ela pode ser, ou não, influente. Uma observação influente é aquela cuja sua eliminação do conjunto de dados resulta em mudanças substanciais em certos aspetos do modelo. A identificação de outliers e das observações influentes pode ser feitas através da análise de resíduos e da medida h ii, onde h ii é o elemento da diagonal da matriz de projeção. O valor h ii representa a influência da i-ésima observação sobre o próprio valor ajustado, se todas as observações têm a mesma influência sobre os valores ajustados, podemos esperar que h ii esteja próximo de p, em que p é o número de parâmetros no modelo e n é o total n das observações. Alguns autores sugerem utilizar h ii > 2p para indicar as possíveis n observações influentes. Para avaliar de uma forma mais geral a influência da i-ésima observação nas estimativas dos coeficientes da regressão utiliza-se a medida distância de Cook dada por h 2 iirpi DC i = (3.17) p(1 h ii ) Pela expressão podemos observar que o valor de DC i será elevado quando o valor de h ii é diferente de zero e resíduos elevados. Portanto, para valores elevados de DC i considerase a respetiva observação como influente Tipos de gráficos A representação gráfica é um método informal para verificar a qualidade de ajuste de um modelo. Segundo (Paula, 2013), os tipos de gráficos mais utilizados para identificar os problemas relacionados ao ajustamento de um modelo são as seguintes: 1) Gráfico dos resíduos standardizados contra os valores ajustados ou a ordem das observações. Este gráfico permite identificar observações consideradas outliers, observações que estão fora do limite considerado para a distribuição dos resíduos. 2) Gráfico normal de probabilidades para resíduos com envelope permite avaliar o pressuposto da normalidade dos resíduos e da escolha da distribuição para a variável resposta. No caso da regressão logística é mais útil para avaliar se o modelo em análise é ou não adequado. Se o modelo ajustado é o correto, existe grande probabilidade de que todos os pontos estejam dentro do envelope. 3) Gráficos de h ii e DC i contra a ordem das observações para identificar as observações influentes. 16

25 4. Modelo de regressão Logística O modelo de regressão Logística é um dos casos mais importante do modelo linear generalizado, quando se pretende modelar uma variável resposta categórica com dois valores possíveis, dado um conjunto de variáveis explicativas (Agresti, 2002). A principal diferença entre modelos de regressão logística e regressão linear é a distribuição da variável resposta (Hosmer & Lemeshow, 2013), a regressão logística substitui a distribuição Normal da variável resposta pela distribuição de Bernoulli. Seja Y a variável resposta com distribuição de Bernoulli, e uma amostra y 1,, y n dessa distribuição que pode tomar apenas dois valores, atribuindo-se yi = 1 ao acontecimento de interesse e yi = 0 ao acontecimento complementar, denominados sucesso e insucesso, respetivamente e cuja função de probabilidade é dado por f(y i p i ) = p i y i (1 p i ) 1 y i, yi = 0, 1; i=1,, n (4.1) Onde pi é o parâmetro desconhecido, que significa a probabilidade do sucesso P(yi = 1) e a probabilidade do insucesso P(yi = 0) = 1 - pi Formulação O objetivo é formular um modelo para a probabilidade de um objeto ou individuo caracterizado por um vetor de variáveis explicativas (x) tomar o valor 1, isto é, formular um modelo para o valor médio da variável resposta Yi, que corresponde a P(Yi=1 xi). No entanto, no modelo de regressão clássico o valor médio é dado por E (Y xi =xi) = β 1 + β 2 x i2 + β 3 x i3 + β p x ip, i = 1,, n A equação do modelo de regressão linear implica que a variável resposta pode assumir valores entre - e +, o que não corresponde ao contradomínio do modelo de regressão logística. Para a resolução deste problema, a regressão logística reescreve o modelo linear de modo a permitir que o valor da variável resposta varie entre 0 e 1. Isto é obtido pela seguinte equação eβ 1+β 2 x i2 +β 3 x i3 + +β p x ip P(Y i = 1 x) = 1 + e β 1+β 2 x i2 +β 3 x i3 + +β p x ip (4.2) As componentes do vetor β são os parâmetros desconhecidos do modelo. Para descrever uma relação linear entre a variável resposta e as variáveis explicativas fazse o uso da função logit que é o logaritmo da razão entre a probabilidade de sucesso e a probabilidade de insucesso. A equação da função logit é o seguinte 17

26 p(y i = 1 X) logit[ p(y i = 1 X)] = ln [ 1 p(y i = 1 X) ] (4.3) = β 1 + β 2 x i2 + β 3 x i3 + + β p x ip Os coeficientes de regressão βj, j = 1,,p representam a variação esperada no logaritmo da chance por unidade de variação na variável xj Estimação dos coeficientes de regressão Para a estimação dos coeficientes de regressão usa-se o método da máxima verosimilhança (descrito na secção 3.3), partindo do pressuposto que existe independência dos valores observados, a função de máxima verosimilhança para dados binários é obtido como o produto dos termos dado em expressão (4.1) do seguinte modo n L(β) = p i y i (1 p i ) 1 y i i=1 Na prática usa-se o logaritmo da função verosimilhança (ou log-verosimilhança) para simplificar a tarefa de obtenção dos estimadores, e é dado por n ln(l(β)) = l(β) = [y i ln ( p (Y i = 1 X) 1 p (Y i = 1 X) ) + ln(1 p (Y i = 1 X))] i=1 Substituindo ln ( p (Y i=1 X) 1 p (Y i =1 X) ) = β 1 + β 2 x i2 + β 3 x i3 + + β p x ip e 1 p(y i = 1 X) = 1 1+ e β 1+β2x i2 +β3x i3 + +βpx ip, obtém-se n l(β) = [y i (β 1 + β 2 x i2 + β 3 x i3 + + β p x ip ) ln(1 + e β 1+β 2 x i2 +β 3 x i3 + +β p x ip )] i=1 O valor de β que maximiza l(β) é obtido após derivar l(β) em relação aos parâmetros (β 1, β 2, β 3,, β p ). Caso não seja possível uma solução analítica serão necessários métodos iterativos para a sua resolução. 18

27 4.3. Qualidade de ajustamento Depois de obter as estimativas dos coeficientes da regressão, é necessário avaliar a qualidade do modelo ajustado. O primeiro passo desta avaliação é verificar se os coeficientes estimados são significativos, isto é, se existe uma associação estatisticamente significativa entre as variáveis explicativas e a variável resposta. Para isso utiliza-se o teste de Wald e o teste da razão de verosimilhança descrita na secção Hosmer e Lemeshow O teste de Wald e o teste da razão de verosimilhança têm como objetivo avaliar a significância de cada variável explicativa incluída no modelo. No caso do teste de Hosmer e Lemeshow, este é utilizado para avaliar de uma forma geral a qualidade do ajuste de um modelo, ou seja, a hipótese a testar é: H 0 : O modelo ajusta se bem aos dados versus H 1 : O modelo não se ajusta bem aos dados Estatística de teste e respetiva distribuição: g χ 2 (g 2) (4.4) X 2 HL = (z i u i) 2 u i i=1 n z i = i n j=1 y j, n i é a dimensão do grupo i = 1,, g e u i = i j=1 p j A estratégia para o cálculo desta estatística é a divisão da amostra em g grupos. O número de grupos mais utilizado é g = 10. A distribuição dos grupos é feita com dimensão aproximadamente igual, sendo o primeiro grupo constituído pelas observações que possuem os menores valores para as probabilidades estimadas e o último grupo será constituído pelas observações que possuem os valores mais altos para as probabilidades estimadas. A forma de organizar a distribuição desses dados é uma tabela de contingência g x 2. Esta tabela contém as frequências observadas e esperadas. A frequência esperada é dada pela soma das probabilidades estimadas de todos os indivíduos dentro de cada grupo, g = 1,..., 10, para o caso da variável resposta, Y = 1. Ao que refere a variável resposta, Y = 0, a frequência esperada é dada pela soma de 1 probabilidades estimadas de todos os indivíduos dentro de cada grupo. Depois disso calcula-se o valor da estatística de teste de Hosmer e Lemeshow e compara-se com o quantil de probabilidade (1-α) da distribuição Qui-Quadrado de Pearson e g 2 graus de liberdade a um dado nível de significância (α). A hipótese do modelo se ajustar bem aos dados é rejeitada se o valor-p associado a estatística de teste for menor que o nível de significância α. 19

28 Qui-Quadrado de Pearson O teste de Qui-Quadrado de Pearson é também utilizado na avaliação do modelo. De acordo com a expressão (3.12) definida na secção 3.6.3, a fórmula para o cálculo do resíduo é: r ip = y i p i p i(1 p i), i = 1,2, n Assim, a estatística de teste é dada pelo quadrado da soma dos resíduos: n X 2 = (y i p i) 2 p i(1 p i) i=1 χ 2 (n p 1) A hipótese nula (H0) é rejeitada se o valor p associado a estatística de teste for menor que um dado nível de significância Capacidade preditiva do modelo Quando o objetivo de ajustamento do modelo de regressão Logística é a predição, é necessário que o modelo tenha ótimo poder de discriminação, pois o erro de classificação tem as suas consequências. A análise do poder de discriminação é feita por meio de algumas medidas de desempenho como a sensibilidade, a especificidade e a percentagem total de acertos. Para melhor estudar estas medidas, Hosmer e Lemeshow sugerem dois métodos: Curva ROC Tabela de contingência Curva ROC Seja Ŷ = 1 se um indivíduo selecionado na população em estudo for classificado como acontecimento de interesse e Ŷ = 0 se classificado como não acontecimento. Para esta classificação, é necessário estabelecer um ponto de corte que determina a probabilidade de um dado indivíduo ser classificado em uma determinada classe. O ponto de corte mais utilizado é C = 0.5, significa que para um valor Ŷ maior ou igual a 0.5 o indivíduo será classificado na classe 1, caso contrário será classificado na classe 0. Através da curva ROC é possível escolher um ponto de corte que maximiza simultaneamente a sensibilidade e a especificidade. Ela é representada por meio de um gráfico que nos permite estudar a variação da sensibilidade e 1- especificidade para todos os possíveis pontos de corte entre 0 e 1. 20

29 Em geral, o melhor ponto de corte refere-se a uma combinação da sensibilidade e 1 especificidade que mais se aproxima do canto superior esquerdo do gráfico Tabela de contingência A tabela de contingência é uma tabela 2 x 2 para o ponto de corte escolhido, como apresentado na tabela abaixo. Tabela de classificação para as duas classes Classificação Valores Observados Total Classe (0) Classe (1) Classe (0) n 11 n 12 n 1. Classe (1) n 21 n 22 n 2. Total n.1 n.2 n A partir da tabela de classificação, as medidas de desempenho do modelo são definidas como: A sensibilidade é a probabilidade da classificação correta do acontecimento de interesse, isto é, P(Ŷ = 1 Y = 1) = n 22 n.2. A especificidade é a probabilidade da classificação correta do não acontecimento, P(Ŷ = 0 Y = 0) = n 11 n.1. A percentagem total de acertos é dada por n 11 + n 22 n x 100. Além de o gráfico da curva Roc fornecer o melhor ponto de corte, a área abaixo da curva que varia entre 0 e 1, dá uma medida da capacidade do modelo em discriminar os valores da variável resposta, Y = 1, dos valores de Y = 0. Hosmer e Lemeshow (2013) apresentaram uma regra geral para avaliação do resultado da área abaixo da curva ROC: Se a área for igual a 0.5 não há discriminação Se 0.7 área < 0.8 a discriminação é aceitável Se 0.8 área < 0.9 a discriminação é excelente Se a área 0.9 a discriminação é excecional 4.5. Interpretação dos coeficientes de regressão Depois de ajuste do modelo, assumindo o pressuposto de que o modelo se ajuste bem aos dados e de que os coeficientes estimados são significativos, é necessário interpretar os valores associados aos coeficientes do modelo. A interpretação dos coeficientes do modelo de regressão depende da natureza das variáveis explicativas que podem ser 21

30 categóricas ou contínuas. No caso da variável explicativa categórica é necessário criar variáveis auxiliares para que possam ser introduzidas no modelo. Estas variáveis também são designadas de variáveis dummy Variável independente dicotómica Quando a variável explicativa, x, é categórica e pode assumir dois valores possíveis. Se x tomar os valores 0 e 1, podemos construir uma tabela de contingência com as probabilidades que se pretendem estimar, nomeadamente a probabilidade em que a variável resposta, Y, pode assumir o valor 1 segundo os dois valores possíveis de x, ou seja, p 1 = P(Y = 1 x = 1) e p 0 = P(Y = 1 x = 0): Y = 1 Y = 0 x = 1 x = 0 p 1 p 0 1 p 1 1 p 0 Tendo em consideração a equação (4.2), a expressão do cálculo de p 1 e p 0 é respetivamente, dada por p 1 = eβ 1 +β2 1+e β 1+ β2 e p 0 = eβ1 e β 1 Portanto, pode definir-se a chance (odds) da seguinte forma: p 1 1 p 1 = e β 1+β 2 e p 0 1 p 0 = e β 1 A razão p 1 1 p 1 corresponde à chance da variável resposta assumir o valor 1 em relação ao valor 0 quando a variável explicativa é igual a 1, x = 1. Da mesma forma a razão 1 p 0 significa a chance da variável resposta assumir valor 1 em relação ao valor 0 quando a variável explicativa é igual a 0, x = 0. Também se verifica que ao aplicar a função logit logit[p(y = 1 x = 1)] = ln ( p 1 1 p 1 ) = β 1 + β 2 (4.5) p 0 logit[p(y = 1 x = 0)] = ln ( p 0 1 p 0 ) = β 1 (4.6) Observando as expressões (4.5) e (4.6) pode concluir-se que β 2 é dado pela diferença dos logit. 22

31 A razão entre as chances é designada por razão da chance ou em termo inglês odds ratio, a sua expressão é dada por p 1 Odds ratio = 1 p 1 p 0 1 p 0 Substituindo os valores de p 1 1 p 1 e p 0 1 p 0 pelas expressões apresentadas anteriormente, vem Odds ratio = eβ 1+β 2 e β 1 = e β 2 O valor da razão de chance representa o risco para a variável resposta Y tomar valor 1 quando a variável explicativa x = 1, em relação a x = 0. O intervalo de 100% (1-α) de confiança para a estimativa e β 2 é dado por e (β 2±Z αse (β 1 2 )) 2 Onde Z α 1 é o quantil de probabilidade da distribuição Normal de valor médio zero e 2 variância unitária Variável independente policotómica Quando a variável explicativa, x, é categórica com k categorias (k>2), então é necessário criar k-1 variáveis dummy. Estas variáveis podem assumir apenas os valores 0 ou 1. Por conveniência as k categorias são numeradas de 0 a k-1, sendo a categoria 0 a classe referência. Os valores possíveis 0 ou 1 das variáveis dummy significam que se a caraterística de um objeto ou indivíduo pertence à classe i, com i = 1,, k-1, a todas as variáveis dummy corresponderá o valor 0, com exceção da i-ésima classe, à qual corresponderá o valor 1. E no caso da classe referência, se a caraterística de um objeto pertence a esta classe, então a todas as k-1 variáveis dummy corresponderá o valor 0. Exemplo: Suponhamos que a variável explicativa, x, foi registada com a seguinte codificação, 0 Categoria 1 X = { 1 Categoria 2 2 Categoria 3 Para este exemplo é possível criar duas variáveis dummy, sendo a categoria 1 a classe referência. Neste caso tem-se 23

32 Categoria da Variáveis dummy variável X Categoria 2 Categoria 3 Categoria Categoria Categoria Assim, para cada categoria da variável explicativa pode estimar-se a probabilidade da variável resposta assumir o valor 1 e a chance desta variável assumir o valor 1 em relação ao valor 0. O cálculo e interpretação do valor da razão da chance é semelhante ao caso da variável dicotómica Variável independente contínua Quando um modelo de regressão logística contém uma variável independente contínua, a interpretação do coeficiente estimado será feita com base no pressuposto da linearidade entre a variável resposta e a variável independente. Já vimos na secção (3.1) que para estabelecer a tal relação linear utiliza-se a função logit dada por p(y i = 1 x) logit[ p(y i = 1 x)] = ln [ 1 p(y i = 1 x) ] = β 1 + β 2 x Sendo assim a interpretação do coeficiente estimado é semelhante ao do modelo clássico de regressão. O coeficiente β 2 representa a variação no logaritmo da chance por uma unidade de variação no valor da variável independente, x. No caso de a variável ser dicotômica vimos que existe uma diferença no logit ou logaritmo da chance quando a variável independente passa da classe referência para outra classe. Aqui o processo é semelhante, ao aumentar uma unidade no valor da variável, x, haverá uma diferença β 2 no logaritmo da chance e se aumentarmos k unidades, haverá uma diferença de kβ 2. Para estimar o valor de odds ratio é a exponencial de β 2 ou kβ 2. O intervalo de 100% (1-α) de confiança para a estimativa e kβ 2 é dado por e (kβ ±Z 2 αksê(β ))

33 5. Modelo de regressão de Poisson O modelo de regressão de Poisson desempenha um papel fundamental na análise de dados de contagem (Turkman & Silva, 2000). Este tipo de dados assumem valores discretos (0, 1, 2, ), refletindo o número de ocorrências de um acontecimento em um período de tempo fixo. Diversos estudos sobre os dados de contagem utilizam a metodologia de regressão de Poisson como modelo padrão para a análise deste tipo de dados. A razão pela qual o modelo de regressão de Poisson é considerado a metodologia base na modelação de dados de contagens é o facto de assumir apenas valores inteiros não negativos para o valor esperado da variável resposta, e esta é uma característica inerente deste tipo de dados (Coxe et al., 2009; Lord & Mannering, 2010; Hausman et al., 1984). No entanto, este modelo apresenta limitação pelo facto de impor que o valor médio condicional seja igual à variância condicional. Esta restrição faz com que ocorra muitas vezes na prática o problema de sobredispersão (Turkman & Silva, 2000). A principal causa deste fenómeno foi dada como a heterogeneidade na população e o erro de medida das covariáveis. A consequência disso é o mau ajustamento do modelo pela subestimação da variância dos parâmetros, o que resulta em estatísticas de teste sobrestimadas enviesando a significância destes. Para resolver este problema, utiliza-se o modelo de regressão Binomial Negativa Descrição O objetivo da regressão de Poisson é modelar a relação de uma variável dependente Y com um vetor de variáveis independentes xi (Winkelman, 2008). Seja Y a variável aleatória resposta com distribuição de Poisson que pode tomar apenas valores inteiros não negativos, e cuja função de probabilidade é dada por f(yi µ i ) = µ y i i e µ i, yi = 0,1,2,3,, y i! (5.1) Onde yi é o valor observado da variável resposta Y, e µi é o parâmetro desconhecido, valor médio da variável Y. Em modelo de regressão linear o valor médio da variável resposta é dado por uma combinação linear de variáveis explicativas, isto é E (y x) = x β, onde β é o vetor dos parâmetros desconhecidos. 25

34 No entanto, em modelo de regressão de Poisson não pode ser usado a fórmula acima para o cálculo do valor médio µi, uma vez que o preditor linear pode assumir qualquer valor real, enquanto µi, valor esperado em regressão de Poisson só assume valores não negativos. Para ultrapassar este problema, a regressão de Poisson permite reescrever o modelo de regressão linear através da seguinte equação Assim µi Є R + (números positivos). µ(x i ) = e x β Uma outra restrição do modelo de Poisson é o valor médio condicional igual a variância condicional. Isto é, E(y x) = µ = e x β var(y x) = µ = e x β Para estabelecer uma relação linear entre a variável resposta e as variáveis explicativas pode usar-se a transformação logarítmica como função de ligação do modelo linear generalizado e tem-se ln(µ(x i )) = ln(e x β ) = x β Os coeficientes de regressão βj, j = 1,,p representam a variação esperada no logaritmo do valor médio, por unidade de variação na variável xi Estimação dos coeficientes do modelo Para a estimação dos coeficientes de regressão usa-se o método da máxima verosimilhança descrita na secção (3.3), o logaritmo da verosimilhança para o modelo de Poisson é dado por, 26

35 n l(β) = (y i ln(µ(x i )) µ(x i ) ln(y i!)) (5.2) i=1 Substituindo ln(µ(x i ))eµ(x i ) por (x β) e (e x β ) respetivamente, obtém-se l(β) = n i=1 [y i β 1 + y i β 2 x i2 + y i β 3 x i3 + + y i β p x ip e β 1+β 2 x i2 +β 3 x i3 + +β p x ip ln (y i!)] Para encontrar a estimativa dos parâmetros é necessário a utilização de métodos iterativos Qualidade de ajustamento Para avaliar a qualidade de ajuste de um modelo de Poisson com p parâmetros independentes aos dados y 1,, y n, utiliza-se a medida AIC definida na secção (3.6.2), a razão de verosimilhanças e o Qui-Quadrado de Pearson. A deviance para o modelo de regressão de Poisson é dada através da equação (3.9) descrita na secção (3.6.1) e equação (5.3), obtendo-se a seguinte expressão n D = 2 (y i ln ( y i ) (y i µ i)) µ i i=1 A outra medida importante na avaliação do modelo ajustado em relação aos dados é o Qui-Quadrado de Pearson. Pela expressão (3.13) definida na secção (3.6.3), substitui-se a função de variância, V(µ i) = µ i, logo obtêm-se a seguinte expressão n X 2 = (y i µ i) 2 i=1 µ i 27

36 Também, para o modelo de regressão de Poisson é possível calcular a percentagem da deviance reduzida, ou seja, a variabilidade nos dados explicados pelo modelo, através da seguinte expressão (Coxe et al., 2009). (1 D(Modelo ajustado) ) x 100 D(Modelo nulo) 28

37 6. Modelo de regressão Binomial Negativa O modelo de regressão Binomial Negativa é utilizado em alternativa ao modelo de Poisson quando ocorre o problema de sobredispersão por considerar um parâmetro adicional de dispersão (α) no cálculo da variância condicional. Este parâmetro é não negativo, portanto a variância condicional é, ou pode ser, maior do que o valor médio Descrição Seja Y a variável resposta com distribuição Binomial Negativa, parâmetro µ 0 e α 0, cuja função de probabilidade é dada por Γ(y i + α) f(y i µ i ; α) = ( Γ(y i + 1)Γ(α) ) ( α ) α + µ i = 0, 1, 2, α ( µ y i i ) com yi α + µ i (6.1) Onde Γ(.) é a função gama. O valor médio e a variância são dadas, respetivamente por, E(Y i ) = µ i Var(Y i ) = µ i + αµ i 2 A formulação do modelo de regressão Binomial Negativa é semelhante aos outros modelos lineares generalizados. A parte sistemática é dada por g(µ i ) = x i β, em que x i = (x i1,, x ip ) contém valores de variáveis explicativas e β = (β 1,, β p ) T é um vetor de parâmetros desconhecidos. A função de ligação g(.) utilizada é a logarítmica assim como nos modelos de Poisson. Assim sendo, µ i = e x i β, logo o valor médio condicional, E(Y i x i ) = e x i β e a variância condicional, Var(Y i x i ) = e x i β + αe 2x i β. Aplicando a transformação logarítmica, o modelo de regressão Binomial Negativa é dado por ln(µ i ) = x i β 6.2. Estimação dos coeficientes do modelo O método utilizado para estimar os coeficientes de regressão é a máxima verosimilhança. O logaritmo da verosimilhança para o modelo de regressão Binomial Negativa é dado por n l(β) = (y i ln ( αµ i ) ( αµ i α ) ln(1 + αµ i) + ln ( Γ (y i + Γ(y i + 1)Γ ( 1 ))) α i=1 1 α ) 29

38 Para encontrar a estimativa dos parâmetros (α e β) é necessário a utilização de métodos iterativos Qualidade de ajustamento Para avaliar a qualidade de ajustamento de um modelo de regressão Binomial Negativa com p parâmetros independentes aos dados y 1,, y n, utilizam-se as mesmas estatísticas que para o modelo de Poisson. A expressão de cálculo da deviance para o modelo de regressão Binomial Negativa é dada por n D = 2 (y i ln ( y i i=1 µ i ) ( 1 α + y i) ln ( 1 + αy i )) 1 + αµ i Pela expressão (3.13) dada na secção (3.6.3), substitui-se a função da variância, V(µ i) = µ i + αµ i2, logo obtêm-se a seguinte expressão da estatística Qui-Quadrado de Pearson n X 2 = (y i µ i) 2 i=1 µ i + αµ i2 30

39 7. Análise e modelação de dados Neste capítulo, o objetivo é aplicar a metodologia de modelos lineares generalizados, considerando duas amostras obtidas a partir do conjunto de dados Stats19 (2013). A primeira amostra vai ser utilizada para estudar a severidade de acidentes rodoviários. A segunda amostra será utilizada para estudar a ocorrência de acidentes rodoviários por dia. Este capítulo está organizado da seguinte maneira. A secção 7.1 apresenta o conjunto de dados Stats19, o processo de como foram extraídas as duas amostras de dados e a análise exploratória destes dados. Por fim, na secção 7.2, são apresentados os modelos estimados, assim como é feita a seleção do modelo que melhor se ajusta aos dados Base de dados O conjunto de dados Stats19 (2013) utilizado neste trabalho refere-se a acidentes rodoviários na Grã-Bretanha a nível nacional. Estes dados são preenchidos pelas autoridades policiais num formulário estatístico de acidente onde descrevem os detalhes sobre as circunstâncias dos acidentes, as informações dos veículos e das vítimas conforme se apresentam no Anexo 1. Todos esses dados são transferidos, guardados e mantidos pelo Departamento de Transporte britânico, em três ficheiros. O primeiro ficheiro constitui as características dos acidentes. O segundo ficheiro dispõe as características dos veículos envolvidos nos acidente e o terceiro ficheiro contém as características das vítimas. O fenómeno em estudo é a ocorrência de acidentes rodoviários, sendo necessária a utilização destes três ficheiros de dados. A apresentação e o resumo dos três ficheiros de dados utilizando gráficos de barras encontram-se disponíveis no Anexo 2. O primeiro ficheiro acidentes.csv constitui uma base de dados com o total de acidentes rodoviários ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 e 31 de Dezembro de Do total de acidentes rodoviários, a maior percentagem de acidentes, cerca de 74.8 %, ocorreram em estradas de via simples, seguindo-se as estradas de via dupla e as rotundas com 14.8% e 6.7%, respetivamente. Finalmente as estradas de sentido único e as estradas escorregadias apresentaram menores frequências de acidentes. Quanto ao limite de velocidade verificou-se que a maioria dos acidentes ocorreram nas estradas com limite 30 milhas por hora. A distribuição de acidentes rodoviários segundo as condições de iluminação apresenta-se no Anexo 2. Verificou-se que a maior percentagem de acidentes ocorreu à luz do dia. Relativamente às condições da superfície de estradas, a maioria dos acidentes rodoviários ocorreu com estrada seca. O segundo ficheiro veículos.csv constitui uma base de dados no total de veículos envolvidos nos acidentes. Do total dos veículos envolvidos nos acidentes, a maioria foram 31

40 os veículos ligeiros. A maioria dos condutores foram do género masculino, com faixa etária entre os 20 a 45 anos. Por último, o terceiro ficheiro vítimas.csv constitui uma base de dados no total de vítimas de acidentes. Das vítimas de acidentes, a maioria foram os condutores, com 62.9%, seguindo-se os passageiros com 24.6%, e os peões com 12.4%. Também se verificou que a maioria das vítimas sofreram ferimentos ligeiros, 87.7%, enquanto os ferimentos graves e fatais foram 11.2% e 1.1 %, respetivamente Dados da severidade de acidentes rodoviários A primeira análise foi estudar os fatores que influenciam a ocorrência de acidentes não ligeiros. Para tal, aplicou-se o filtro à base de dados correspondente ao ficheiro acidentes.csv para reduzi-la a uma amostra onde cada observação corresponde a acidente envolvendo um veículo, e as vítimas podem ser condutores, passageiros e peões. Assim deu-se origem a uma nova base de dados com a dimensão de acidentes. As informações sobre os veículos e as vítimas foram selecionadas das bases de dados correspondentes aos ficheiros veículos.csv e vítimas.csv, respetivamente. Para a construção do modelo estatístico, utilizou-se a metodologia regressão Logística e a variável resposta foi a severidade de acidentes. Esta variável assume dois valores possíveis (0 e 1), em que 0 representa acidentes ligeiros e 1 corresponde a acidentes não ligeiros. No ficheiro vítimas.csv é dado o valor da severidade de cada vítima com a seguinte escala: Escala da severidade das vítimas em cada acidente 1 Ferimentos fatais 2 Ferimentos graves 3 Ferimentos ligeiros Para a nova base de dados, agruparam-se as categorias ferimentos fatais e ferimentos graves numa só categoria ferimentos não ligeiros, que passou a tomar o valor 1, e a categoria ferimentos ligeiros tomou o valor 0. Portanto para obter o valor da variável resposta severidade dos acidentes calculou-se a média da severidade de todas vítimas em um acidente, que só é considerado ligeiro se todas as vítimas tiverem ferimentos ligeiros. De acordo com a revisão da literatura nomeadamente Dissanayake (2002), Eluru & Bhat (2007), Eluru et al. (2008), Ghamdi (2002), Kong & Yang (2010), Valent et al. (2002) e Zajac & Ivan (2003), identificaram as características humanas, ambientais e dos veículos, como fatores que influenciam a severidade dos acidentes. A partir da base dados Stats19 foram selecionadas para análise da severidade de acidentes rodoviários as seguintes variáveis explicativas. 32

41 Dia de semana Hora do dia Mês do ano Género do condutor Faixa etária do condutor Tipo de veículo Condições de iluminação Idade do veículo Velocidade limite na estrada A tabela 7.1 apresenta as variáveis em estudo e as respetivas categorias. Tabela 7.1: As variáveis em estudo e respetivas categorias Variáveis Severidade de acidentes Dia da semana Hora do dia Meses do ano Género do condutor Faixa etária dos condutores Tipos de veículos Condições de iluminação Idade do veículo Velocidade limite nas estradas Categorias 0-acidentes ligeiros 1-acidentes não ligeiros 0-dias úteis 1-domingo 2-sábado 1-1 a 5 horas 2-6 a 11 horas 3-12 a 17 horas 4-18 a 24 horas 1-Dezembro a Fevereiro 2-Março a Maio 3-Junho a Setembro 4-Outubro a Novembro 0-Feminino 1-Masculino 1-<36 anos anos 3->55anos 1-Automóvel (veículos ligeiros) 2-motocicleta 3-camião 4-outro (Táxi, minibus, autocarro e veículo de agricultura) 0-luz do dia 1-não luz do dia Anos 1-<30 milhas/horas milhas/horas 3->50 milhas/horas Para a análise exploratória dos dados, no caso das variáveis explicativas qualitativas (dia da semana, meses do ano, velocidade limite nas estradas, tipos de veículos, hora do dia e condições de iluminação) utilizou-se os gráficos de barras. Estes representam a proporção de elementos da amostra de cada categoria de uma variável. A idade do veículo é uma variável quantitativa contínua, portanto, vai ser apresentada a medida de tendência central e a medida de dispersão, assim como o diagrama de caixa e o gráfico de barras. 33

42 Idade do veículo A figura 7.1 apresenta a distribuição de acidentes rodoviários segundo a variável idade do veículo. Esta figura sugere que a variável idade do veículo tem distribuição enviesada à direita, ou seja menos concentrada na parte superior do que na parte inferior. A idade do veículo varia entre 1 a 111 anos, respetivamente, sendo a idade média de 7.3 e o desvio padrão de 4.6. Figura 7.1: Boxplot e gráfico de barras para a variável idade do veículo Dias da semana e meses do ano A figura 7.2 apresenta a distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano. Podemos observar que em dias úteis há maior frequência de acidentes rodoviários, enquanto no domingo é menos frequente a ocorrência de acidentes. Relativamente à variável meses do ano, verifica-se que nos meses de Junho a Setembro há maior percentagem de acidentes rodoviários e menor percentagem nos meses de Outubro a Novembro. Figura 7.2: Distribuição de acidentes rodoviários segundo os dias da semana e os meses do ano 34

43 Velocidade limite nas estradas e tipos de veículos A figura 7.3 apresenta a distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os tipos de veículos. Podemos verificar que a maioria de acidentes rodoviários ocorrem a uma velocidade limite de milhas por hora nas estradas, e do total dos veículos na amostra a maioria são os automóveis. Figura 7.3: Distribuição de acidentes rodoviários segundo a velocidade limite nas estradas e os tipos de veículos Hora do dia e condições de iluminação A figura 7.4 apresenta a distribuição de acidentes rodoviários segundo a hora do dia e as condições de iluminação. Esta figura mostra que os acidentes rodoviários são mais frequentes no horário das horas, cerca de 37.40% das observações, e menos frequentes nos horários das 1-5 horas e horas. Relativamente à variável condições de iluminação, verifica-se que é mais frequente a ocorrência de acidentes à luz do dia, cerca de 73.4% das observações. Figura 7.4: Distribuição de acidentes rodoviários segundo a hora do dia e as condições de iluminação 35

44 Género e faixa etária do condutor Por último, a figura 7.5 apresenta a distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor. Através desta figura podemos observar que os condutores do género masculino são os que mais se envolvem em acidentes, com 66.7% das observações da amostra. Quanto à variável faixa etária verifica-se que os condutores com menos de 36 anos sofrem mais acidentes, cerca de 45% dos valores observados, e são menos frequentes em condutores com mais de 55 anos, 15.20% da mostra da amostra total. Figura 7.5: Distribuição de acidentes rodoviários segundo o género e a faixa etária do condutor Associação entre a variável resposta e as variáveis explicativas Uma tabela de contingência cruza os possíveis valores de uma variável qualitativa, X, com os possíveis valores da outra variável, Y, registando quantas ocorrências foram verificadas em cada combinação das diversas categorias das variáveis. O objetivo inicial da análise de tabelas de contingência é averiguar se existe ou não alguma relação entre as variáveis aleatórias que presidiram à classificação cruzada. Tendo sido observadas n ocorrências, pode efetuar-se um teste de independência, com as hipóteses: H 0 : As variáveis X e Y são independentes versus H 1 : As variáveis X e Y não são independentes A estatística de teste compara frequências observadas com frequências esperadas, e sob a validade de H 0 : r c X 2 = (n ij e ij ) 2 i=1 j=1 e ij χ 2 (r 1)(c 1) 36

45 onde nij representa a frequência observada na célula (i, j), r é o número de categorias da variável Y, c é o número de categorias da variável X, n=rxc e e ij representa a frequência esperada na célula (i, j), estimada por: e ij = total da linha i total da coluna j total da amostra A hipótese H 0 será rejeitada quando a diferença entre frequências observadas e frequências esperadas for demasiado elevada, ou seja, quando o valor da estatística de teste for maior que o valor crítico da distribuição Qui-Quadrado de Pearson (χ 2 ). Ainda sob a hipótese de H 0 ser verdadeira, o valor p = P(χ 2 > X 0 2 ), sendo X 0 2 o valor observado da estatística de teste. Nas tabelas 7.2 a 7.8 são apresentadas as frequências de acidentes ligeiros e não ligeiros em cada uma das categorias das variáveis explicativas utilizadas neste estudo. As frequências esperadas encontram-se entre os parêntesis. Tabela 7.2: Frequência de severidade dos acidentes rodoviários segundo os dias da semana Acidentes Dias Úteis Sábado Domingo Total Ligeiros (0) ( ) ( ) ( ) Não ligeiros (1) ( ) ( ) ( ) Total Tabela 7.3: Frequência de severidade dos acidentes rodoviários segundo os meses Acidentes Dezembro a Fevereiro Ligeiros (0) ( ) Não ligeiros (1) ( ) Março a Maio ( ) ( ) Junho a Setembro ( ) ( ) Outubro a Novembro ( ) ( ) Total Total Tabela 7.4: Frequência de severidade dos acidentes rodoviários segundo a hora do dia Acidentes 1-5 horas 6-11 horas horas horas Total Ligeiros (0) (125933) ( ) ( ) ( ) Não ligeiros (1) ( ) (31869) ( ) ( ) Total

46 Tabela 7.5: Frequência de severidade dos acidentes rodoviários segundo a condição de iluminação Acidentes Luz do dia Não luz do dia Total Ligeiros (0) ( ) ( ) Não ligeiros (1) ( ) ( ) Total Tabela 7.6: Frequência de severidade dos acidentes rodoviários segundo o tipo de veículos Acidentes Automóvel Motociclista Camião Outro Total Ligeiros (0) ( ) ( ) ( ) ( ) Não ligeiros (1) ( ) ( ) (8472.3) (8422.9) Total Tabela 7.7: Frequência de severidade dos acidentes rodoviários segundo o género do condutor Acidentes Feminino Masculino Total Ligeiros (0) ( ) ( ) Não ligeiros (1) ( ) ( ) Total Tabela 7.8: Frequência de severidade dos acidentes rodoviários segundo a faixa etária do condutor Acidentes <36 anos anos >55 anos Total Ligeiros (0) ( ) ( ) ( ) Não ligeiros (1) ( ) ( ) ( ) Total A rejeição da hipótese de que as variáveis são independentes é dada quando a diferença entre a frequência observada e a frequência esperada for demasiado elevada, pois quanto maior é esta diferença maior será a associação entre as variáveis. Para verificar se esta diferença é significativa, ou seja, se há evidência suficiente para considerarmos que existe uma associação entre as variáveis explicativas e a variável resposta, utiliza-se a estatística designada por Qui-Quadrado de Pearson. A partir do Qui-Quadrado pode-se então calcular a probabilidade de não rejeitar a hipótese de independência entre a variável resposta e as variáveis explicativas. No caso da associação entre a severidade de acidentes rodoviários e as variáveis explicativas consideradas neste estudo, os valores p associados às estatísticas de teste com distribuição do Qui-Quadrado de Pearson são de uma forma geral todos iguais a zero, portanto a decisão é rejeitar a hipótese de independência entre a variável severidade de acidentes rodoviários e as variáveis explicativas para qualquer nível de significância (1%, 5% e 10%). 38

47 Na tabela 7.9 apresentam-se os valores da estatística de teste e os respetivos valores da probabilidade de não rejeitar a hipótese nula (H 0 ). Tabela 7.9: Teste de Qui-Quadrado entre as variáveis explicativas e a variável severidade de acidentes rodoviários Variáveis Estatística de teste (X 2 ) Valor-p = p(χ 2 > X 2 ) Dia_semana e Meses e-37 3 Hora_dia Condições_iluminação Tipo_veiculo Limite_Velocidade Género_condutor Faixa_etária_condutor e-71 2 Graus de liberdade Dados de ocorrências de acidentes rodoviários por dia Para o estudo da ocorrência de acidentes rodoviários por dia, utilizou-se a base de dados correspondente ao ficheiro acidentes.csv no total de acidentes ocorridos entre 1 de Janeiro de 2005 a 31 de Dezembro de A informação sobre os acidentes ocorridos por dia foi extraída desta base de dados utilizando o software Excel. Assim sendo, uma nova base de dados foi criada no total de 3287 observações em que cada observação corresponde ao total de acidentes ocorridos em cada dia no período de 1 de Janeiro de 2005 a 31 de Dezembro de O estudo da ocorrência de acidentes rodoviários com modelos de regressão de Poisson é muito comum na literatura, considerando como variáveis explicativas a geometria de estrada, as condições climáticas e o volume de tráfego. Nesta dissertação foi estudada a sua variação em função das variáveis dias da semana, meses, estações do ano e dias feriados, pois a seleção das variáveis a partir da base de dados utilizada (Stats19) é limitada devido à forma como elas estão representadas. Os dias da semana que são feriados estão apresentados no Anexo 3. A variável resposta é quantitativa discreta e representa o número de acidentes ocorridos por dia. Os modelos lineares generalizados utilizados para descrever a relação entre a variável resposta e as variáveis explicativas vão ser a regressão de Poisson e a Binomial Negativa. Para a análise exploratória dos dados da amostra foi utilizada a representação gráfica boxplots. Este permite visualizar a distribuição dos acidentes ocorridos segundo as variáveis consideradas como explicativas. Boxplot, também designado por caixa de bigodes, é um gráfico utilizado para estudar a distribuição empírica dos dados. A sua representação permite resumir os valores da amostra para o 1º quartil e o 3º quartil, além dos limites inferior e superior. A linha horizontal mais baixa e a linha horizontal mais alta indicam, respetivamente os valores mínimo e máximo da amostra. A linha no interior do retângulo é o 2º quartil ou mediana. 39

48 O limite superior (inferior) da linha tracejada vai até o maior (menor) valor do conjunto de dados apenas se esse valor não for muito distante do 3º e 1º quartil (no máximo 1.5 x intervalo entre quartis). Os valores acima do limite superior e abaixo do limite inferior são considerados outliers. Figura 7.6: Distribuição de acidentes rodoviários entre 2005 e 2013 Os boxplots correspondentes à distribuição de acidentes rodoviários entre o período de 1 de Janeiro de 2005 e 31 de Dezembro de 2013 sugerem haver uma diferença na distribuição dos dados entre os dias de semana e os fins-de-semana, sendo o dia de sextafeira o que apresenta a maior ocorrência dos acidentes. O mês de Novembro é o que apresenta maior ocorrência de acidentes por dia e o mês de Janeiro a menor ocorrência por dia. Em dias feriados ocorrem menos acidentes em relação a dias normais (não feriados) Estimação dos modelos Nesta secção serão apresentados os resultados da estimação dos modelos de regressão. Os modelos foram desenvolvidos para estimar a probabilidade de ocorrências dos acidentes não ligeiros e explicar a variação do número de acidentes rodoviários por dia, utilizando, respetivamente, o método de regressão Logística e de regressão de Poisson. 40

49 Primeiramente vai ser ajustado um modelo de regressão a cada variável explicativa, em seguida são introduzidos mais variáveis no modelo de acordo com o método de seleção backward stepwise, both stepwise e forward stepwise. O R(2013) foi o software utilizado para ajustar os modelos de regressão simples e múltipla Regressão Logística A estimação do modelo logístico inicia-se com o ajuste de uma regressão simples a cada uma das variáveis explicativas. O objetivo desta análise é verificar a importância que cada variável explicativa tem para a variável resposta, severidade de um acidente. A tabela 7.10 apresenta os valores estimados dos coeficientes de regressão, desvio padrão, teste de Wald e respetivos valores p. As estimativas dos coeficientes representam o efeito que cada uma das variáveis explicativas pode causar na variável resposta. O desvio padrão da estimativa é utilizado para o cálculo da estatística de teste Wald que avalia a significância dos coeficientes estimados. Assim, para testar a significância dos coeficientes estimados, compara-se o valor do teste de Wald com o quantil de probabilidade da normal padrão. Esse quantil depende do nível de significância que se pretender. Também foi apresentado na tabela 7.10 o valor estimado da medida razão da chance (Odds ratio). Para a variável explicativa categórica, esta medida indica o quanto o logaritmo da razão da chance muda quando se passa da categoria referência da variável para uma outra sua categoria. No caso da variável explicativa contínua, o aumento de uma unidade no valor da variável corresponde a um incremento de valor igual no logaritmo da razão da chance. 41

50 Tabela 7.10: Ajuste de regressão logística a cada uma das variáveis explicativas Variáveis explicativas Estimativas dos coeficientes Odds ratio (OR) Intervalo de confiança (95%, OR) Desvio padrão Teste Wald Valorp(wald) Meses Termo Constante <2e-16 Março-Maio (1.05;1.09) e-16 Junho-Setembro (1.09;1.12) <2e-16 Outubro-Novembro (1.01;1.05) Dia_Semana Termo Constante <2e-16 Sábado (1.18;1.23) <2e-16 Domingo (1.32;1.36) <2e-16 Hora do dia Termo Constante <2e horas (1.29;1.35) <2e horas (1.09;1.13) <2e horas (1.38;1.43) <2e-16 Condições_Iluminação Termo Constante <2e-16 Não luz do dia (1.39;1.42) <2e-16 Tipo_Veículo Termo Constante <2e-16 Motocicleta (2.39;2.47) <2e-16 Camião (1.50;1.57) <2e-16 Outro tipo_veículo (1.09;1.15) <2e-16 Género_condutor Termo Constante <2e-16 Masculino (1.63;1.67) <2e-16 Faixa_etária_Condutor Termo Constante <2e anos (0.99;1.027) >55 anos (1.14;1.18) <2e-16 Idade_Veículo Termo Constante <2e-16 Idade (1.007;1.009) <2e-16 Limite_Velocidade Termo Constante <2e m/hora (0.81;0.91) e-06 >50 m/horas (1.21;1.36) e-16 A partir dos resultados de ajuste do modelo de regressão Logística a cada variável explicativa apresentados na tabela 7.10, verifica-se que todas as variáveis explicativas apresentam uma associação estatisticamente significativa e positiva com a variável resposta. A chance da ocorrência de acidentes não ligeiros nos meses de Outubro a Dezembro é 3% superior aos meses de Dezembro a Fevereiro (classe referência), e para os meses de Junho a Setembro e Outubro a Novembro a chance é de 9% e 10% respetivamente, superior aos meses de Dezembro a Fevereiro. 42

51 Relativamente aos dias da semana verifica-se que nos dias de sábado e domingo a chance é de 21% e 34% respetivamente, superior em relação aos dias úteis (segunda a sexta). Para a variável hora do dia, o horário de 18 a 24 horas e das 1 a 5 horas apresentam uma chance de 40% e 32% respetivamente, superior à classe referência (6 a 11 horas), o mesmo se verifica para a variável condição de iluminação em que os acidentes que ocorrem à noite têm uma chance 40% superior de serem não ligeiros em relação à classe referência (luz do dia). Também se verifica na tabela 7.10 que a chance dos acidentes envolvendo os condutores de motocicletas terem vítimas não ligeiras é maior (OR=2.43) em relação aos condutores de automóveis, os condutores de camião têm uma chance 54% superior aos condutores de automóveis. O odds ratio da idade do veículo é 1.008, o que significa que a cada aumento de um ano na idade do veículo aumenta exp(0.008) na chance de acidentes não ligeiros Modelo de regressão múltipla Depois da análise da tabela de contingência e do ajuste do modelo logístico a cada uma das variáveis explicativas, procede-se à seleção das variáveis para a construção do modelo de regressão múltipla. Para a seleção das variáveis foi utilizado o procedimento automático backward stepwise, forward stepwise e both stepwise. Método backward stepwise O método backward stepwise inicia-se com a suposição de que todas as variáveis estão incluídas no modelo. A ideia é verificar, por fase, se cada variável pode ser ou não eliminada do modelo. A decisão de eliminar a variável é com base na estatística deviance ou a medida AIC, de modo que este método terminou o processo de seleção com o seguinte modelo ajustado: Severidade_acidente ~ meses + dia_semana + hora_do_dia + limite_velocidade + condições_iluminações + tipo_veículo + género + faixa_etária + idade_veículo. Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald e respetivos valores p são apresentados no Anexo4. Método forward stepwise Esse procedimento parte da suposição que não há variável no modelo. A ideia do método é adicionar uma variável a cada passo. A primeira variável selecionada é aquela com maior correlação com a variável resposta, tendo por base a estatística deviance ou a medida AIC. O modelo selecionado com o método forward stepwise foi o seguinte: 43

52 Severidade_acidente ~ tipo_veiculo + limite_velocidade + condições_iluminações + género + dia_semana + faixa_etária + meses + hora_do_dia + idade_veículo Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald e respetivos valores p são apresentados em Anexo4. Método both stepwise O método both stepwise é uma combinação dos dois métodos anteriores. Este método utiliza a adição e a remoção de covariáveis com base na estatística deviance ou a medida AIC. O modelo final selecionado por este método foi o seguinte: Severidade_acidente ~ meses + dia_semana + hora_do_dia + limite_velocidade + condições_iluminações + tipo_veículo + género + faixa_etária + idade_veículo. Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald e respetivos valores p são apresentados no Anexo4. A partir dos resultados apresentados em Anexo4 verifica-se que o modelo final é o mesmo para todos os métodos de seleção das covariáveis. De acordo com o valor da estatística de teste Wald existe evidência estatística de que os coeficientes estimados são todos significativos a qualquer nível de significância considerado. Para confirmar que o modelo selecionado pelos procedimentos automáticos se ajusta melhor com a presença de todas as covariáveis faz-se a comparação do modelo ajustado com o modelo nulo através dos cálculos das medidas descritas na secção (3.6). A tabela 7.11 apresenta os resultados para tal comparação: Tabela 7.11: Comparação entre os modelos (backward, both e forward) e o modelo nulo Modelo nulo (M n) AIC Deviance (D) Diferença entre deviance Valor-p Modelo backward (M b) (D Mn -D Mb ) = <2.2e-16 Modelo both (M bh) (D Mn -D Mbh ) = <2.2e-16 Modelo forward (M f) (D Mn -D Mf ) = <2.2e-16 A medida AIC mede o grau de informação que se perde com o ajuste de um determinado modelo, o seu valor mostra que os modelos backward, both e forward têm uma menor perda de informação em relação ao modelo nulo (tabela 7.11), portanto o ajustamento é melhor. A deviance é o desvio do modelo ajustado em relação ao modelo saturado, isto é, a distância do modelo ajustado, µ, dos dados observados, y, e quanto menor é esta distância melhor é o ajuste do modelo. A diferença entre a deviance do modelo nulo em relação aos modelos backward, both e forward corresponde ao valor da estatística de teste de verosimilhança e é dada como uma 44

53 medida de variação dos dados. A comparação desta medida com o quantil da distribuição Qui-Quadrado permite concluir que as variáveis explicativas incluídas nos modelos backward, both e forward são significativos, o valor p correspondente é aproximadamente zero. Pelo facto de existir uma forte associação entre a variável condições de iluminação e a variável hora do dia, decidiu-se ajustar estas duas variáveis em modelos diferentes com o método forward stepwise. Os dois modelos ajustados são: Modelo 1: Log( p 1 p )=β 1 + β 2 *Tipo_Veículo + β 3 *Limite_Velocidade + β 4 *Condições_Iluminação + β 5 *Género_Condutor + β 6 *Dia_Semana + β 7 *FaixaEtária_Condutor + β 8 *Meses + β 9 *Idade_Veículo Modelo 2: Log( p 1 p )=β 1 + β 2 *Tipo_Veículo + β 3 *Limite_Velocidade + β 4 * Género_Condutor + β 5 * Dia_Semana + β 6 * FaixaEtária_Condutor + β 7 * Meses + β 8 *Hora_do_dia + β 9 *Idade_Veículo Para a escolha do melhor modelo é utilizado a medida AIC, pois os dois modelos não são aninhados. A tabela 7.12 apresenta os resultados de AIC dos dois modelos: Tabela 7.12: Resultado para comparação dos modelos de regressão Logística (modelo1 e 2) AIC Modelo Modelo Número de parâmetros Seguindo o critério de parcimónia, isto é, escolher um modelo que esteja bem ajustado e com um número reduzido de parâmetros, a escolha do modelo final será o modelo1 com menor número de parâmetros e menor valor de AIC. A tabela 7.13 apresenta os resultados da estimativa dos parâmetros do modelo selecionado. 45

54 Tabela 7.13: Modelo de regressão Logística (Modelo1) Variáveis explicativas Estimativas dos Teste de Wald Valor-p (Wald) coeficientes Termo Constante <2e-16 Tipo_Veículo Motocicleta <2e-16 Camião <2e-16 Outro tipo_veículo <2e-16 Limite_Velocidade m/horas e-09 >50 m/horas e-11 Condições_Iluminação Não luz do dia <2e-16 Género_Condutor Masculino <2e-16 Dia_Semana Sábado Domingo <2e-16 Faixa_etária_Condutor 36-55anos e-08 >55anos <2e-16 Meses Março-Maio <2e-16 Junho-Setembro <2e-16 Outubro-Novembro e-06 Idade_veículo Idade <2e-16 Avaliação do modelo 1 Depois do ajustamento do modelo 1, procede-se à sua avaliação. A estatística de teste de Wald, a medida deviance e o teste de Hosmer e Lemeshow são os métodos utilizados para avaliar a qualidade de ajuste do modelo. O primeiro passo da avaliação do modelo foi a significância estatística dos coeficientes estimados utilizando a estatística de Wald e a medida deviance. Analisando os valores apresentados na tabela 7.13, o teste de Wald, para qualquer nível habitual de significância (1%, 5% e 10%), considera que os parâmetros estimados são estatisticamente significativos. Também, pelo resultado da medida deviance comprova-se que o modelo é globalmente significativo. Para esta conclusão faz-se a análise de comparação entre a deviance do modelo ajustado (modelo1) com a deviance do modelo nulo (ver o Anexo4). Ainda sobre a qualidade de ajuste do modelo o resultado de teste de Hosmer e Lemeshow foi igual a 62.1 e valor p é de 1.83e-10, isso indica que o modelo não se ajusta bem aos dados. Com o objetivo de encontrar um modelo que se ajusta bem aos dados foi realizado uma análise mais específica considerando uma base de dados de acidentes com peões. As variáveis explicativas utilizadas são as mesmas consideradas no modelo 1. 46

55 Análise de acidentes com peões Nesta análise, os dados da amostra descrita na secção foram reduzidos, considerando apenas as instâncias da base de dados que correspondem a acidentes com peões. Os resultados de ajustamento do modelo sobre os dados de acidentes com peões com a regressão Logística encontram-se no Anexo5. Analisando a tabela (Anexo5), verifica-se uma diferença estatística significativa na proporção de acidentes não ligeiros em comparação com os ligeiros, para a variável tipo_veículo (categoria camião, valor p <2e-16, e outro tipo de veículo, valor p = 0.017), mas não significativa para as motocicletas. Também se verifica que a diferença de proporção de acidentes não ligeiros em comparação com os meses de Dezembro a Fevereiro não foi estatisticamente significativa para os meses de Março a Maio, Junho a Setembro e Outubro a Novembro, os valores-p são (0.342, 0.18 e 0.79) respetivamente. Pelos valores estimados da estatística de Wald e respetivos valores p associados à variável meses, conclui-se que esta variável não é significativa, portanto foi retirada do modelo. O modelo final selecionado para explicar a severidade dos acidentes com peões foi o seguinte: Modelo 3: Log( p 1 p )=β 1 + β 2 *Tipo_Veículo + β 3 *Limite_Velocidade + β 4 *Condições_Iluminação + β 5 *Género_Condutor + β 6 *Dia_Semana + β 7 *FaixaEtária_Condutor + β 8 *Idade_Veículo Os resultados da estimativa dos parâmetros, estatística de Wald e valor p são apresentados na tabela

56 Tabela 7.14: Estimativas dos parâmetros, estatística de Wald e valor p (Modelo3) Variáveis explicativas Estimativas dos coeficientes Teste de Wald Termo Constante ,1 <2e-16 Tipo_Veículo Motocicleta Camião <2e-16 Outro tipo_veículo Limite_Velocidade m/horas >50 m/horas e-16 Condições_Iluminação Não luz do dia <2e-16 Género_Condutor Valor-p (Wald) Masculino e-10 Dia_Semana Sábado e-05 Domingo e-09 Faixa_etária_Condutor 36-55anos e-11 >55anos e-06 Idade_veículo Idade Para um nível de significância de 5%, os valores estimados da estatística de teste de Wald (tabela 7.14) indicam que todos os parâmetros estimados são estatisticamente significativos, evidenciando que existe associação entre a variável resposta (severidade de acidentes) e as variáveis explicativas. Para uma avaliação mais global do modelo sobre a sua eficiência em descrever a variável resposta utiliza-se o teste de Hosmer e Lemeshow. O valor estimado da estatística de teste foi 8.9 e o valor p é 0.35, logo não se rejeita a hipótese de que o modelo3 se ajusta bem aos dados. 48

57 Análise de resíduos A análise de resíduos permite verificar a qualidade de ajustamento do modelo e identificar as observações consideradas outliers ou influentes. A figura 7.7 apresenta o gráfico de resíduos da deviance versus os valores ajustados, o gráfico de leverage (hii versus os índices das observações) e o gráfico da distância de Cook para a análise do modelo3. Figura 7.7: Gráficos da análise de resíduos referentes ao modelo de regressão Logística ajustados aos dados de acidentes com peões de 2005 a 2013 Relativamente ao gráfico de resíduos da deviance mostra que todas as observações estão dentro do intervalo considerado [-2,2], portanto nenhuma observação é considerada outlier. Quanto ao gráfico de leverage permitiu identificar algumas observações como sendo influentes, pois seus hii são superiores ao valor crítico 2p = Para avaliar n com mais detalhe esta influência, utilizou-se a medida distância de Cook. Pelo gráfico referente a esta medida nota-se que as observações e apresentam maiores valores de DCi. No Anexo5 apresentam-se os resultados do modelo ajustado sem essas duas observações. As variações encontradas foram pequenas e não houve mudança inferencial, isto é, todas as variáveis que foram significativas no modelo3 continuaram presentes nesse modelo. Avaliação preditiva do modelo3 A avaliação da capacidade preditiva do modelo é importante quando existe a possibilidade de o utilizar para fazer a previsão. Para essa avaliação recorreu-se ao estudo das medidas de desempenho através da tabela de contingência e área da curva ROC. O melhor ponto de corte (cutoff ) é 0.243, como mostra a figura no Anexo5. Na tabela

58 estão os resultados possíveis na classificação dos indivíduos em cada classe da variável resposta (Y = 0 e Y = 1). Classificação Tabela 7.15: Tabela de classificação do modelo3 Valores Observados Classe (0) Classe (1) Total Classe (0) Classe (1) Total Através da tabela 7.15 é possível estimar os valores das medidas de desempenho, verificase que a percentagem total de acertos, ou seja, a proporção de indivíduos corretamente classificados foi de 60.9%, a sensibilidade e a especificidade foram 44.01% e 66.5% respetivamente, isso mostra que o modelo tem problemas em avaliar os verdadeiros positivos. Área da curva ROC A área abaixo da curva ROC varia entre 0 e 1 e dá-nos uma medida da capacidade do modelo em discriminar os valores da variável resposta Y=1, dos valores da variável Y=0. Figura 7.8: gráfico da Curva ROC (modelo de regressão Logística) A linha diagonal representada no gráfico indica uma classificação aleatória, quanto mais distante estiver a curva da diagonal principal melhor é o desempenho do modelo. O valor da área abaixo da curva foi de 0.567, uma discriminação não aceitável de acordo com os critérios de avaliação propostos por Hosmer e Lemeshow. O modelo em análise faz classificação aleatória dos indivíduos. O problema do baixo desempenho do modelo em 50

59 discriminar os valores da variável resposta está associado à distribuição da mesma. A proporção da classe negativa que corresponde a acidentes ligeiros é de 75.2% enquanto a proporção da classe positiva acidentes não ligeiros é de apenas 24.8%. Interpretação do modelo 3 A interpretação será feita em termos da razão da chance a cada variável explicativa incluída no modelo. A tabela 7.16 apresenta os valores da razão da chance (odds ratio) e a correspondente estimativa do intervalo de confiança ao nível de 95% de confiança. Tabela 7.16: valores obtidos para a razão da chance (Odds ratio) e intervalo de confiança Variáveis explicativas Estimativas dos coeficientes Odds ratio (OR) Intervalo de confiança (95%, OR) Tipo_veículo Motocicleta (0.96;1.096) Camião (1.41;1.55) Outro_tipo_veículo (1.009;1.095) Limite_velocidade m/hora (1.04;1.23) >50 m/hora (2.19;2.70) Condições_Iluminação Não luz do dia (1.37;1.44) Género_condutor Masculino (1.06;1.13) Dia_semana Sábado (1.05;1.12) Domingo (1.09;1.19) Faixa_etária_Condutor anos (0.89;1.12) >55 anos (0.89;1.12) Idade_Veículo Idade (0.99;1.007) Variáveis explicativas: Tipo de veículo: A ocorrência de acidentes não ligeiros é 48% superior entre os condutores de camiões, 3% superior entre os condutores de motocicletas e 5% superior entre os condutores de outros tipos de veículos, em relação aos veículos ligeiros. Os motivos podem ser atribuídos a maior peso e a alta velocidade do veículo (Eluru et al. 2008). Limite de velocidade O valor desta variável explicativa está relacionado com o valor do limite de velocidade na estrada onde ocorreu o acidente. Verifica-se em relação à classe referência (limite de 51

60 velocidade <30 milhas/hora), um aumento na ocorrência de acidentes não ligeiros de 13% para o limite de velocidade entre 30 e 50 milhas/hora. Para limite de velocidade maior que 50 milhas/hora a chance de acidentes não ligeiros é 2.44 vezes superiores em relação a limite de velocidade <30 milhas/hora. Parece, então, que a alta velocidade contribui significativamente para a severidade dos acidentes. Condições de iluminação Em relação a esta variável verifica-se que de risco a acidentes não ligeiros é maior a noite do que à luz do dia (odds ratio = 1.40). A razão para isso é o maior fluxo de tráfego durante o dia permitindo aos condutores diminuir a velocidade. Género de condutor O risco de envolvimento em acidentes não ligeiros é maior entre os condutores masculinos do que entre os condutores femininos, cerca de 9% superior. Dia de semana Quanto a esta variável, a classe de referência definida são os dias úteis (segunda a sexta feira) e verifica-se que a chance da ocorrência de acidentes não ligeiros é maior aos finsde-semana, sendo 8% superior ao sábado e 14% superior ao domingo. Idade do veículo Por último a idade do veículo, verifica-se que a chance de acidentes não ligeiros aumenta com a idade do veículo. 52

61 Análise de acidentes com peões na zona rural e urbana Os dados da amostra utilizada na análise de acidentes com peões foram divididos em duas bases de dados, uma representa os dados de acidentes com peões na zona rural e a outra representa os dados de acidentes com peões na zona urbana. A percentagem de acidentes não ligeiros é maior em zona rural do que em zona urbana (ver Anexo6). O objetivo desta análise é comparar a probabilidade de ocorrência de acidentes não ligeiros na zona rural em relação à zona urbana. Para isso, foi ajustada o modelo de regressão Logística aos dados, considerando as mesmas variáveis explicativas utilizadas no modelo3. A tabela 7.17 apresenta os resultados do modelo ajustado aos dados da ocorrência de acidentes com peões na zona rural. Tabela 7.17: Regressão Logística ajustado aos dados de acidentes com peões na zona rural Variáveis explicativas Estimativas dos coeficientes Teste de Wald Valor-p (Wald) Termo Constante <2e-16 Tipo_Veículo Motocicleta Camião e-10 Outro tipo_veículo Limite_Velocidade m/horas >50 m/horas e-15 Condições_Iluminação Não luz do dia <2e-16 Género_Condutor Masculino Dia_Semana Sábado Domingo Faixa_etária_Condutor 36-55anos >55anos Idade_veículo idade Analisando a tabela 7.17, verifica-se que a diferença na proporção de acidentes não ligeiros em comparação com os acidentes ligeiros foi estatisticamente significativa para camiões (valor p = 9.73e-10), mas não significativa para as motocicletas e outros tipos de veículos com valores p (0.09 e 0.43), respetivamente. Para qualquer nível habitual de significância (1%, 5% e 10%), os valores estimados da estatística de Wald e respetivos valores p associados a variável faixa etária dos condutores, permitem concluir que esta variável não é significativa. Em relação às outras variáveis (limite de velocidade nas estradas, condições de iluminação, género dos 53

62 condutores, dia da semana e idade do veículo), conclui-se que para um nível de significância de 5% que existe uma relação estatisticamente significativa com a variável resposta (severidade de acidentes com peões na zona rural). Para além da análise individual de cada variável explicativa no modelo logístico ajustado aos dados da ocorrência de acidentes com peões na zona rural com a estatística Wald, utilizam-se outras técnicas estatísticas para a análise da qualidade de ajustamento do modelo. O resultado da estatística de teste de Hosmer e Lemeshow foi 0.73 e o valor p é 0.99, logo não se rejeita a hipótese de que o modelo se ajusta bem aos dados. Os gráficos da análise de resíduos referentes ao modelo que explica a severidade de acidentes com peões na zona rural encontram-se no Anexo7. A tabela 7.18 apresenta os resultados do modelo ajustado aos dados da ocorrência de acidentes com peões na zona urbana. Tabela 7.18: Regressão logística ajustado aos dados de acidentes com peões na zona urbana Variáveis explicativas Estimativas dos coeficientes Teste de Wald Termo Constante <2e-16 Tipo_Veículo Motocicleta Camião <2e-16 Outro tipo_veículo Limite_Velocidade m/horas >50 m/horas Condições_Iluminação Valor-p (Wald) Não luz do dia <2e-16 Género_Condutor Masculino e-09 Dia_Semana Sábado Domingo e-06 Faixa_etária_Condutor 36-55anos e-06 >55anos e-07 Idade_veículo Idade Os resultados apresentados em tabela 7.18, mostram que a diferença de proporção de acidentes não ligeiros em comparação com os veículos ligeiros foi estatisticamente significativa para camiões e outros tipos de veículos, valores p (<2.2e-16 e ), respetivamente, mas não significativa para as motocicletas (valor p = 0.75). Para um nível de significância 5%, a estimativa do coeficiente associado a variável idade do veículo 54

63 não foi significativa, (valor p = 0.08), resultado diferente da análise de acidentes com peões na zona rural. Em relação as outras variáveis (limite de velocidade nas estradas, condições de iluminação, género dos condutores, dia da semana e faixa etária dos condutores), concluise para um nível de significância 5% que existe uma relação estatisticamente significativa com a variável resposta (severidade de acidentes com peões na zona urbana). Para a avaliação global do modelo ajustado aos dados de acidentes com peões na zona urbana, o resultado da estatística de teste de Hosmer e Lemeshow foi 1.75 e o valor p é 0.99, logo não se rejeita a hipótese de que o modelo se ajusta bem aos dados. Os gráficos da análise de resíduos referentes ao modelo encontram-se no Anexo8. Comparação dos resultados A comparação será feita em termos da probabilidade de ocorrência de acidentes não ligeiros na zona rural e urbana. Tabela 7.19: resultados comparativos da probabilidade de ocorrência de acidentes não ligeiros entre zona rural e urbana Variáveis explicativas Estimativa dos coeficientes Zona Rural Odds ratio (OR) Intervalo de confiança (95%, OR) Estimativa dos coeficientes Zona Urbana Odds ratio (OR) Intervalo de confiança (95%, OR) Tipo_veículo Motocicleta (0.97;1.44) (0.92;1.12) Camião (1.28;1.63) (1.39;1.57) Outro_tipo_veículo (0.80;1.10) (1.03;1.12) Limite_velocidade m/horas (1.11;1.85) (0.99;1.20) >50 m/horas (2.22;3.84) (1.18;1.68) Condições_Iluminação Não luz do dia (1.65;1.93) (1.38;1.43) Género_condutor Masculino (1.03;1.21) (1.05;1.14) Dia_semana Sábado (1.01;1.23) (1.04;1.12) Domingo (1.08;1.36) (1.07;1.16) Os coeficientes positivos (0.17 e 0.37) apresentados na tabela 7.19 para as motocicletas e camiões, respetivamente, sugerem que acidentes ocorridos na zona rural envolvendo estes tipos de veículos tem maior probabilidade de ser acidentes não ligeiros em relação a acidentes envolvendo os veículos ligeiros. E o coeficiente negativo (-0.06) de outros tipos de veículos sugere menor probabilidade de ocorrer acidentes não ligeiros em relação aos veículos ligeiros. A razão da chance de (1.18 e 1.45) indicam que acidentes envolvendo 55

64 motocicletas e camiões, respetivamente, tem 18% e 45% mais chance de ser não ligeiros em relação aos acidentes envolvendo veículos ligeiros. Os coeficientes positivos (0.36 e 1.07) da variável limite de velocidade nas estradas de zona rural indicam maior probabilidade de ocorrer acidentes não ligeiros nas estradas com limite entre 30 a 50 milhas por hora e >50 milhas por hora em relação a limite <30 milhas por hora. Para as estradas de zona urbana com limite de velocidade entre 30 e 50 milhas por horas não houve diferenças significativas na ocorrência de acidentes não ligeiros em relação a limite <30 milhas por hora, pois o intervalo de confiança da razão da chance contém o valor 1 (tabela 7.19). A razão da chance (1.43) indica que os acidentes ocorridos nas estradas de zona rural com limite entre 30 e 50 milhas por hora tem 43% mais chance de ser não ligeiros em relação a limite <30 milhas por hora. Quanto a limite >50 milhas por hora a chance de ocorrerem acidentes não ligeiros é aproximadamente 3 vezes superior em relação ao limite < 30 milhas por hora. Para as estradas da zona urbana a chance de ocorrerem acidentes não ligeiros quando o limite é >50 milhas por horas é apenas 40% superior em relação a limite < 30 milhas por hora. Os coeficientes positivos (0.58 e 0.34) da variável condições de iluminação em zona rural e urbana, respetivamente, indicam que a probabilidade de ocorrerem acidentes não ligeiros é maior à noite em relação à luz do dia. As razões de chance (1.79 e 1.40) sugerem que a chance de ocorrerem acidentes não ligeiros nas estradas da zona rural é 79% superior em relação a luz do dia e nas estradas da zona urbana é 40% superior. Quanto à variável género dos condutores, os coeficientes positivos (0.092 e 0.11), para zona rural e urbana, respetivamente, indicam maior probabilidade de ocorrerem acidentes não ligeiros entre os condutores masculinos. A razão da chance (1.12 e 1.09) indicam que a chance de ocorrer acidentes não ligeiros entre os condutores masculinos é 12% e 9% superior em relação aos condutores femininos. Por último, para a variável dia da semana, verifica-se que a probabilidade de ocorrerem acidentes não ligeiros é maior aos fins-de-semana (sábado e domingo) em relação aos dias úteis (segunda à sexta feira), tanto em zona rural como urbana. A chance de ocorrerem acidentes não ligeiros aos sábados na zona rural é 12% superior em relação aos dias úteis. Aos domingos a chance é 21% superior em relação aos dias úteis. Para a zona urbana a chance de ocorrerem acidentes não ligeiros aos sábados é 8% superior em relação aos dias úteis. Aos domingos a chance é 12% superior em relação aos dias úteis. 56

65 Regressão de Poisson Para estimar o modelo utilizaram-se os dados da amostra descrita na secção (7.1.2). Primeiramente foi ajustado o modelo a cada variável explicativa. As estimativas dos coeficientes do modelo, do desvio padrão, da estatística de teste de Wald e respetivos valores p são apresentados na tabela Tabela 7.20: Resultados de ajuste de regressão de Poisson de cada variável explicativa Variáveis explicativas Estimativas dos coeficientes Desvio padrão Teste Wald Valor p(wald) Dia_Semana Termo Constante <2e-16 Segunda <2e-16 Terça <2e-16 Quarta <2e-16 Quinta <2e-16 Sexta <2e-16 Sábado <2e-16 Dia_Semana (com três categorias) Termo Constante <2e-16 Dias úteis <2e-16 Sábado <2e-16 Mês Termo Constante <2e-16 Fevereiro e-09 Março Abril Maio <2e-16 Junho <2e-16 Julho <2e-16 Agosto e-14 Setembro <2e-16 Outubro <2e-16 Novembro <2e-16 Dezembro e-14 Estações_ano Termo Constante <2e-16 Primavera e-05 Verão <2e-16 Outono <2e-16 Dias Termo Constante <2e-16 Feriados <2e-16 Os valores da estatística de teste de Wald e os valores p apresentados na tabela 7.20, indicam que todos os coeficientes associados a cada variável explicativa são estatisticamente significativos, com exceção do coeficiente associado a mês de Abril (valor p = 0.39). Para uma análise mais completa sobre a significância estatística das variáveis explicativas foi estimado o valor da estatística de teste da razão de verosimilhanças, em que se 57

66 compara o valor da medida deviance de cada modelo ajustado com a do modelo nulo. A tabela 7.21 apresenta os resultados do teste da razão de verosimilhanças. Tabela 7.21: diferença entre a deviance do modelo ajustado com regressão de Poisson e a deviance do modelo nulo Variável explicativa Estatísticas de teste da razão Valor p de verosimilhança (G) Dia da semana (com 7 categorias) e-16 Dia da semana (com 3 categorias) e-16 Mês (com 12 categorias) e-16 Estações do ano e-16 Feriados (dias normais, dias feriados) e-16 Os resultados da tabela 7.21, também demonstraram que as variáveis explicativas ajustadas ao modelo individualmente são significativos, pois os valores da estatística de teste (G) correspondentes à quantidade da variabilidade nos dados explicada por cada uma das variáveis explicativas e respetivos valores p conduzem à rejeição da hipótese nula de que o modelo ajustado a cada uma das variáveis explicativas é igual ao modelo nulo Modelo de regressão múltipla Após o ajuste dos modelos de regressão a cada variável explicativa, procede-se à seleção das variáveis explicativas que vão entrar no modelo de regressão múltipla. O método de seleção utilizado foi o forward stpewise descrita na secção (3.5.1). As variáveis explicativas dia da semana (dias úteis, sábado e domingo) e estações do ano (primavera, verão, outono e inverno) foram construídas a partir das variáveis dia da semana (com 7 categorias) e os meses do ano, respetivamente, portanto é evidente que existe correlações entre estas variáveis. Para evitar o problema da multicolinearidade, decidiu-se estimar os quatros modelos seguintes: Modelo 1: Log (µ) = β 1 + β 2 *dia_semana + β 3 *mes + β 4 *feriados Modelo 2: Log (µ) = β 1 + β 2 *dia_semana + β 3 *estacões_ano + β 4 *feriados Modelo 3: Log (µ) = β 1 + β 2 *dia_semana (com três categorias) + β 3 *mes + β 4 *feriados Modelo 4: Log (µ) = β 1 + β 2 *dia_semana (com três categorias) + β 3 *estacões_ano + β 4 *feriados 58

67 Os resultados de ajustamento dos modelos com o método forward stpewise estão em Anexo9. Seleção do modelo A escolha do melhor modelo será feita com base na medida AIC e a percentagem da variabilidade explicada pelo modelo, resultados apresentados na tabela Tabela 7.22: Resultados de AIC e %explicada da deviance para selecionar o modelo de Poisson Modelos ajustados AIC % Explicada Modelo % Modelo % Modelo % Modelo % Analisando a tabela 7.22, verifica-se que o modelo1 é o mais adequado, apresenta o menor valor do AIC e a maior percentagem da variabilidade nos dados explicada. Os resultados das estimativas dos coeficientes do modelo, da estatística de teste de Wald e respetivos valores p são apresentados na tabela Tabela 7.23: Resultado de ajustamento do modelo de regressão de Poisson (modelo1) Variáveis explicativas Estimativas Desvio Padrão Teste de Wald Valor-p (Wald) dos coeficientes Termo Constante <2e-16 Dia_semana Segunda <2e-16 Terça <2e-16 Quarta <2e-16 Quinta <2e-16 Sexta <2e-16 Sábado <2e-16 Mês Fevereiro Março Abril Maio <2e-16 Junho <2e-16 Julho <2e-16 Agosto Setembro <2e-16 Outubro <2e-16 Novembro <2e-16 Dezembro <2e-16 Dias Feriados <2e-16 59

68 Para o nível de significância 5%, os valores da estatística de teste e respetivos valores p (0.07, 0.35 e 0.4), levam a concluir que os coeficientes estimados associados aos meses de Fevereiro, Março e Abril não foram significativos. Em relação às outras variáveis explicativas, para qualquer nível de significância (1%, 5% e 10%), conclui-se que existe uma relação estatisticamente significativa com a variável resposta (ocorrências de acidentes rodoviários por dia), resultados apresentados na tabela O valor da estatística de teste da razão de verosimilhanças foi G = e valor p = 2.2e-16, portanto o modelo é globalmente significativo em relação ao modelo nulo, isto é, as variáveis explicativas incluídas no modelo são importantes, podendo ver-se no Anexo9 a variabilidade explicada pelo modelo com a introdução de cada uma das variáveis explicativas. Sobredispersão A sobredispersão é um problema que ocorre frequentemente na prática quando se aplica a metodologia regressão de Poisson, pois esse método tem uma condição específica de que o valor médio condicional seja igual à variância condicional, que geralmente não se verifica na prática. Para a resolução deste problema, a alternativa será o modelo de regressão Binomial Negativa. Para identificar a sobredispersão nos dados, utiliza-se a deviance. O cálculo é baseado na aproximação X 2 do desvio residual. Se existir a sobredispersão, então D segue uma φ distribuição Qui-Quadrado com n - p graus de liberdade, e isso leva ao seguinte estimador para φ (Zuur et al, 2009) citado por (Santos, 2013). φ = D n p Se a estimativa deste parâmetro for menor ou igual a um, então não existe sobredispersão nos dados, prosseguindo-se com o processo de validação do modelo. Caso seja maior que um, é uma indicação da existência de sobredispersão. No modelo 1 ajustado com a regressão de Poisson, verifica-se que ϕ = 15.5, o que evidencia sobredispersão nos dados. Devido a este problema, vai se ajustar aos dados um modelo de regressão Binomial Negativa. 60

69 Regressão Binomial Negativa A regressão Binomial Negativa é utilizada com o objetivo de solucionar o problema identificado no ajuste do modelo de regressão de Poisson, sendo por isso considerados os mesmos dados da amostra e as mesmas variáveis explicativas. Os modelos de regressão Binomial Negativa ajustados aos dados foram os seguintes: Modelo 1: Log (µ) = β 1 + β 2 *dia_semana + β 3 *mes + β 4 *feriados Modelo 2: Log (µ) = β 1 + β 2 *dia_semana + β 3 *estacões_ano + β 4 *feriados Modelo 3: Log (µ) = β 1 + β 2 *dia_semana (com três categorias) + β 3 *mes + β 4 *feriados Modelo 4: Log (µ) = β 1 + β 2 *dia_semana (com três categorias) + β 3 *estacões_ano + β 4 *feriados Seleção do modelo A seleção do modelo que se ajustou melhor aos dados será feita com base na medida AIC e a percentagem da variabilidade explicada pelo modelo, resultados apresentados na tabela Tabela 7.24: Resultados de AIC e % explicada da deviance para selecionar o modelo de regressão Binomial Negativa Modelos ajustados AIC % Explicada Modelo % Modelo % Modelo % Modelo % Ao comparar os resultados dos modelos apresentados na tabela 7.24, verificou-se que o modelo 1 teve o menor valor de AIC e a maior percentagem da variabilidade explicada em relação aos outros três modelos, portanto é o modelo que explica melhor a variação nos dados de acidentes rodoviários ocorridos por dia. 61

70 Os resultados de ajustamento do modelo1 são apresentados na tabela 7.25 e dos outros três modelos estão no Anexo9. Tabela 7.25: Resultado de ajustamento do modelo de regressão Binomial Negativa (modelo1) Variáveis explicativas Estimativas Desvio padrão Teste de Wald Valor-p (Wald) dos coeficientes Termo Constante <2e-16 Dia_semana Segunda <2e-16 Terça <2e-16 Quarta <2e-16 Quinta <2e-16 Sexta <2e-16 Sábado <2e-16 Mês Fevereiro Março Abril Maio e-07 Junho e-08 Julho e-08 Agosto Setembro e-11 Outubro e-14 Novembro <2e-16 Dezembro Dias Feriados <2e-16 Pelos valores apresentados na tabela 7.25, para qualquer nível habitual de significância, conclui-se que os coeficientes associados a meses de Fevereiro, Março, Abril e Agosto não são significativas. Em comparação com o modelo de regressão Poisson (modelo1), o mês de Agosto deixou de ser significativo, isso sugere que a sua significância era influenciada pela presença da sobredispersão nos dados. A seguir são apresentados os gráficos normais de probabilidades para o modelo1 ajustado com a regressão de Poisson e o modelo1 ajustado com a regressão Binomial Negativa, respetivamente. Analisando a figura abaixo nota-se que o modelo Binomial Negativa é mais adequado para explicar a variabilidade nos dados, uma vez que a maioria dos pontos estão dentro do intervalo. 62

71 Figura 7.9: Gráficos normais de probabilidades referentes ao modelo de regressão de Poisson (a) e ao modelo de regressão Binomial Negativa (b) Na figura 7.10 apresentam-se os gráficos da análise de resíduos. Estes gráficos permitem aferir sobre a qualidade de ajuste do modelo1 com a regressão Binomial Negativa. Figura 7.10: Gráficos da análise de resíduos referentes ao modelo de regressão Binomial Negativa Os resíduos mostram que ainda há espaço para melhorar o modelo de regressão Binomial Negativa. No entanto, o modelo não sofre alteração significativa quando se eliminam as observações candidatas a outliers. 63

72 Interpretação dos coeficientes do modelo A forma como se interpretam os coeficientes estimados é a mesma para os modelos lineares generalizados com função de ligação logarítmica, nomeadamente, os modelos de regressão de Poisson e de Binomial Negativa. Uma interpretação possível para estes parâmetros é que a cada unidade de aumento na variável explicativa resulta em um aumento igual ao coeficiente estimado no logaritmo do valor médio da variável resposta, mantendo as outras variáveis explicativas constantes. A outra interpretação possível é a cada unidade de aumento na variável explicativa resulta em um aumento igual à exponencial do coeficiente estimado no valor médio da variável resposta, mantendo as outras variáveis explicativas constantes. Nesta dissertação a regressão Binomial Negativa foi considerada mais adequada que a regressão de Poisson, portando será feita a interpretação dos resultados encontrados com esta metodologia. Os coeficientes positivos estimados no modelo1 e no modelo3 associados à variável explicativa dia da semana indicam que o número esperado de acidentes é maior nos dias úteis em comparação com os fins-de-semana. Por exemplo, na sexta-feira o número esperado de acidentes rodoviários é 42% superior em relação ao domingo. Os coeficientes estimados associados á variável meses no modelo1 e associados a variável estações do ano no modelo2 indicam que nos meses de outono, respetivamente, Outubro e Novembro, existe maior probabilidade de acidentes por dia em comparação com os outros meses do ano. Relativamente a estes dois meses o número esperado de acidentes por dia aumenta aproximadamente 13% e 17%, respetivamente em relação ao mês de Janeiro. Nos meses de verão (Junho a Setembro), o mês de Agosto tem o menor número de acidentes por dia e o mês de Setembro é o que tem maior número de acidentes por dia. O número esperado de acidentes por dia aumenta 2% e 12% no mês de Agosto e Setembro, respetivamente, em relação ao mês de Janeiro. Os coeficientes negativos dos meses Março e Abril indicam que o número esperado de acidentes por dia diminui cerca de 1% em relação ao mês de Janeiro. Nos dias feriados o número esperado de acidentes diminui 33% em relação aos dias não feriados. 64

73 8. Conclusão Neste trabalho o objetivo principal foi identificar os fatores que influenciam a ocorrência de acidentes rodoviários e a sua severidade. A análise inicial foi a análise exploratória dos dados, pois ela pode sugerir se existe uma relação ou associação entre a variável resposta e as variáveis explicativas, relação essa que pode posteriormente ser melhor estudada e compreendida com a análise de regressão. A análise de regressão incide nos estudos dos modelos lineares generalizados, que neste trabalho abrangeu os modelos de regressão Logística sobre os dados da severidade de acidentes e os modelos de regressão de Poisson ou de regressão Binomial Negativa sobre os dados da ocorrência de acidentes rodoviários por dia na Grã-Bretanha. Os resultados da análise de regressão Logística sobre os dados da severidade de acidentes com peões ocorridos na Grã-Bretanha entre 1 de Janeiro de 2005 e 31 de Dezembro de 2013 demonstraram que as variáveis explicativas tipo de veículos, limite de velocidade nas estradas, condições de iluminação, género do condutor, dia da semana, faixa etária dos condutores e idade do veículo foram estatisticamente significativas. Estas significâncias podem ser observados em termos da probabilidade ou da razão da chance. Os coeficientes estimados destas variáveis, com exceção da variável faixa etária dos condutores, foram positivos, o que significa aumento da probabilidade de acidentes não ligeiros. Quanto à razão da chance, as variáveis que tiveram o maior impacto sobre a severidade de acidentes foram as condições de iluminação, os tipos de veículos e o limite de velocidade nas estradas. Por exemplo a chance de acidentes ocorridos à noite serem não ligeiros é 40% superior em relação à luz do dia. Para Keall, Frith & Patterson (2005) as razões para o maior risco de acidentes à noite incluem o efeito da fadiga dos condutores e a visibilidade reduzida. A chance de acidentes não ligeiros é 48% superior para os peões atingidos por um camião em relação aos automóveis. Para as estradas com limite de velocidade maior do que 50 milhas por hora duplica a chance de acidentes não ligeiros. Outra análise realizada com aplicação da regressão Logística foi a comparação da severidade de acidentes com peões ocorridos na zona rural e urbana. Entre as variáveis explicativas consideradas nesta análise, a maioria foram significativas para explicar a severidade de acidentes, tanto em zona rural como em zona urbana. A diferença desta significância está no diferente impacto que estas variáveis têm sobre a severidade de acidentes na zona rural e urbana. Por exemplo, nas estradas rurais com limite de velocidade maior do que 50 milhas por hora a chance de acidentes não ligeiros é aproximadamente três vezes superior em relação as estradas com limite menor do que 30 milhas por hora. Considerando as mesmas circunstâncias em estradas urbanas, a chance de acidentes não ligeiros aumenta 40%. Em estradas urbanas, os acidentes ocorridos à noite têm uma chance de 40% superior de serem não ligeiros em relação a luz do dia, enquanto nas estradas rurais a chance de acidentes não ligeiros aumenta 79%. 65

74 A idade do veículo foi significativa para explicar a severidade de acidentes na zona rural, mas não significativa para a zona urbana. A probabilidade de acidentes não ligeiros aumenta com a idade do veículo. Segundo Zwerling et al. (2005) esta diferença pode estar associada ao fato dos condutores em zonas rurais utilizarem os veículos mais antigos sem dispositivos de segurança. Para a zona urbana a variável faixa etária dos condutores foi significativa, a probabilidade de acidentes não ligeiros diminui com o aumento da idade dos condutores. De um modo geral, as variáveis que tiveram a maior influência sobre a severidade de acidentes com peões foram o limite de velocidade nas estradas, os tipos de veículos e as condições de iluminação. Na análise de dados sobre a ocorrência de acidentes por dia conclui-se que os modelos desenvolvidos com a regressão Binomial Negativa foram adequados para ajustar os dados. As variáveis explicativas utilizadas foram o dia da semana (com sete categorias), o dia da semana (com três categorias), os meses do ano, as estações do ano e os dias feriados. Os resultados da análise de regressão demonstraram que a ocorrência de acidentes por dia é melhor explicada pelas variáveis explicativas como o dia da semana (com sete categorias), os meses do ano e os dias feriados. De acordo com os resultados da análise de regressão Binomial Negativa, o número esperado de acidentes rodoviários é maior nos dias úteis em relação aos fins-de-semana. Nos meses de Março e Abril, o número esperado de acidentes por dia diminui em relação ao mês de Janeiro. Enquanto nos outros meses do ano aumenta o número esperado de acidentes por dia em relação ao mês de Janeiro, com maior destaque nos meses de Outubro, Novembro e Setembro. Os conhecimentos obtidos podem ser utilizados para melhorar a segurança rodoviária, como desenvolver programas de intervenção de segurança adequadas para reduzir o número de acidentes e da sua severidade. Por exemplo um programa para alertar e sensibilizar os condutores sobre as consequências e os possíveis riscos de um acidente. Sugestão para trabalho futuro O limite de velocidade nas estradas foi considerado como o fator que teve maior influência sobre a severidade de acidentes rodoviários. As estradas de vias simples também tiveram um maior número de acidentes rodoviários, cerca de 74.5% do total de acidentes ocorridos entre 1 de Janeiro de 2005 a 31 de Dezembro de 2013 na Grã- Bretanha. Uma análise interessante seria estudar os acidentes ocorridos neste tipo de estrada considerando o limite de velocidade estabelecido e as características da geometria das estradas. O objetivo seria estabelecer um limite de velocidade adequado a este tipo de estrada. 66

75 Bibliografia: Abdel-Aty, M.A. and Radwan, A.E. (2000). Modelling traffic accident occurrence and involvement. Accid. Anal. Prev, 32, Agresti, Alan (2002). Categorical Data Analysis. Wiley. Ballesteros, M.F., Dischinger, P.C and Langenberg, P. (2004). Pedestrian injuries and vehicle type in Maryland. Accid. Anal. Prev. 36, Cordeiro, G.M, and Lima, E.A. (2006). Modelos Paraméricos. Recife Coxe, S., West, S.G. and Aiken, L.S. (2009). The Analysis of Count Data: A Gentle Introduction to Poisson Regression and Its Alternatives. Journal of Personality Assessment. Cools, M., Moons, E. and Wets, G. (2009). Assessing the impact of weather on traffic intensity. In Transportation Research Institute. Dissanayake, S., and Lu, J.J. (2002). Factors influential in making an injury severity difference to older drivers involved in fixed object passenger car crashes. Accid. Anal. Prev. 34, Eluru, N. and Bhat, C.R. (2007). A joint econometric analysis of seat belt use and crash-related injury severity. Accid. Anal. Prev. 39 (5), Eluru, N., Bhat, C.R. and Hensher, D.A. (2008). A mixed generalized ordered response model for examining pedestrian and bicyclist injury severity level in traffic crashes. Accid. Anal. Prev. 40, Ghamdi, A.S. (2002). Using logistic regression to estimate the influence of accident factors on accident severity. Accid.Anal.Prev. 34, Hausman, J., Hall, B.H. and Griliches, Z. (1984). Econometric Models for Count Data with an Application to the Patents-R & D Relationship. Econometrica, 52(4), Hong, D., Kim, J., Kim, W., Lee, Y. and Yang, H. (2005). Development of traffic accident prediction models by traffic and road characteristics urban areas. Procedings of the Eastern Asia Society for Transportation Studies, vol 5, Hosmer, D. W., and Lemeshow, S. (2013). Applied Logistic Regression. Wiley. Lord, D. and Mannering, F. (2010). The Statistical Analysis of Crash-Frequency Data: A Review and Assessment of Methodological Alternatives. Keall, M. D., Frith, W. J. and Patterson, T. L. (2005). The contribution of alcohol to night time crash risk and other risks of night driving. Accid. Anal. Prev. 37, Kong, C. and Yang, J. (2010). Logistic regression analysis of pedestrian casualty risk in passenger vehicle collisions in China. Accid. Anal. Prev. 42, Kononen, D.W., Flannagan, C.A.C. and Wang, S.C. (2011). Identification and validation of a logistic regression model for predicting serious injuries associated with motor vehicle crashes. Accid. Anal. Prev. 43, Miaou, S.P and Lum, H. (1993). Modeling vehicle accidents and highway geometric design relationships. Accid. Anal. Prev, 25,

76 Milton, J. and Mannering, F. (1998). The relationship among highway geometrics, traffic-related elements and motor vehicle accident frequencies. Transportation 25, Milton, J. C., Shankar, V. N. and Mannering, F. L. (2008). Highway accident severities and the mixed logit model: An exploratory empirical analysis. Accid. Anal. Prev. 40, Memon, A. Q. (2012). Modelling road accidents from national datasets: A case study of Great Britain. Disponivel em: Nelder, J.A. and Wedderburn, R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical Society, A 135, OECD (2008). Towards Zero: Ambitious Road Safety Targets and The Safe System Approach. Organisation for Economic Co-Operation and Development. International Transport Forum. Paris, France. Peden, M., Scurfield, R., Sleet, D., Mohan, D., Hyder, A., Jarawan, E. and Mathers, C. (2004). World Report on Road Traffic Injury Prevention. Geneva: World Health Organization. Paula, G.A. (2013). Modelos de Regressão com Apoio Computacional, São Paulo: IME - Universidade de São Paulo. Raia Jr., A. A. e Santos, L. (2005). Acidente Zero: utopia ou realidade? Anais do XV Congresso Brasileiro de Transporte e Trânsito, Goiânia. Anais em CD-ROM. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL Santos, J. H. (2013). Modelos para dados de contagem com excesso de zeros. Disponível em: Stats19 (2013). Road Traffic Accident dataset, base de dados disponível em: Turkman, M. A., and Silva, G. L. (2000). Modelos Lineares Generalizados da teoria à prática. Lisboa: Edições SPE. Valent, F., Schiava, F., Savonito, C., Gallo, T., Brusaferro, S. and Barbone, F. (2002). Risk factors for fatal road traffic accidents in Udine, Italy. Accid. Anal. Prev. 34, Winkelmann, R. (2008). Econometric Analysis of Count Data, (Fifth edition). ISBN: World Health Organization (2013). Global status report on road safety. ISBN: Zajac, S.S. and Ivan, J.N. (2003). Factors influencing injury severity of motor vehicle crossing pedestrian crashes in rural Connecticut. Accid.Anal. Prev. 35, Zwerling et al. (2005). Fatal motor vehicle crashes in rural and urban áreas: decomposing rates into contributing factors. Injury Prevention 11,

77 Anexos Anexo 1: 69

78 70

79 71

80 72

81 Anexo 2: Descrição dos dados (ficheiro 1) Figura 2.1: Distribuição de acidentes por limite de velocidade (n = dimensão do ficheiro1) Figura 2.2: Distribuição de acidentes por tipos de estrada (n = dimensão do ficheiro1) 73

82 Figura 2.3: Distribuição de acidentes por condições climáticas (n = dimensão do ficheiro1) Figura 2.4: Distribuição de acidentes por condições da superfície de estrada (n = dimensão do ficheiro1) Figura 2.5: Distribuição de acidentes por condições de iluminação (n = dimensão do ficheiro1) 74

83 Figura 2.6: Distribuição de acidentes em cruzamento (n = dimensão do ficheiro1) Descrição dos dados (ficheiro 2) Figura 2.7: Distribuição dos condutores de veículos envolvidos nos acidentes por género dos condutores (n = dimensão do ficheiro2) 75

84 Figura 2.8: Distribuição dos condutores de veículos envolvidos nos acidentes por faixa etária (n = dimensão do ficheiro2) Figura 2.9: Distribuição dos veículos envolvidos nos acidentes (n = dimensão do ficheiro2) 76

85 Descrição dos dados (ficheiro 3) Figura 2.10: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 (n = dimensão do ficheiro3) Figura 2.11: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 por género (n = dimensão do ficheiro3) 77

86 Figura 2.12: Distribuição das vítimas de acidentes ocorridos entre 2005 a 2013 por faixa etária (n = dimensão do ficheiro3) Figura 2.13: Distribuição da severidade das vítimas de acidentes ocorridos entre 2005 a 2013 (n = dimensão do ficheiro3) 78

87 Anexo 3: Tabela: Dias feriados codificados em base de dados Ano (2005) Dia da semana Dias feriados (F) Ano (2006) Dia da semana Dias feriados (F) 1 de Janeiro Sábado F 1 de Janeiro Domingo F 3 de Janeiro Segunda F 2 de Janeiro Segunda F 25 de Março Sexta F 14 de Abril Sexta F 2 de Maio Segunda F 1 de Maio Segunda F 30 de Maio Segunda F 29 de Maio Segunda F 25 de Dezembro Domingo F 25 de Dezembro Segunda F 26 de Dezembro Segunda F 26 de Dezembro Terça F 27 de Dezembro Terça F Ano (2007) Dia da semana Dias feriados (F) Ano (2008) Dia da semana Dias feriados (F) 1 de Janeiro Segunda F 1 de Janeiro Terça F 6 de Abril Sexta F 21 de Março Sexta F 7 de Maio Segunda F 5 de Maio Segunda F 28 de Maio Segunda F 26 de Maio Segunda F 30 de Maio Segunda F 25 de Dezembro Quinta F 25 de Dezembro Terça F 26 de Dezembro Sexta F 26 de Dezembro Quarta F Ano (2009) Dia da semana Dias feriados (F) Ano (2010) Dia da semana Dias feriados (F) 1 de Janeiro Quinta F 1 de Janeiro Sexta F 10 de Abril Sexta F 2 de Abril Sexta F 4 de Maio Segunda F 3 de Maio Segunda F 25 de Maio Segunda F 31 de Maio Segunda F 25 de Dezembro Sexta F 25 de Dezembro Sábado F 26 de Dezembro Sábado F 26 de Dezembro Domingo F 28 de Dezembro Segunda F 27 de Dezembro Segunda F 28 de Dezembro Terça F Ano (2011) Dia da semana Dias feriados (F) Ano (2012) Dia da semana Dias feriados (F) 1 de Janeiro Sábado F 1 de Janeiro Domingo F 3 de Janeiro Segunda F 2 de Janeiro Segunda F 22 de Abril Sexta F 6 de Abril Sexta F 29 de Abril Sexta F 7 de Maio Segunda F 2 de Maio Segunda F 4 de Junho Segunda F 30 de Maio Segunda F 5 de Junho Terça F 25 de Dezembro Domingo F 25 de Dezembro Terça F 26 de Dezembro Segunda F 26 de Dezembro Quarta F 27 de Dezembro Terça F Ano (2013) Dia da semana Dias feriados (F) 1 de Janeiro Terça F 29 de Março Sexta F 6 de Maio Segunda F 27 de Maio Segunda F 25 de Dezembro Terça F 26 de Dezembro Quarta F 79

88 Anexo 4: Regressão Logística Acidentes com condutores, peões e passageiros ocorridos entre 2005 a 2013 Tabela 4.1: Resultado obtido a partir da aplicação do método backward stepwise Variáveis explicativas Estimativas Teste de Wald Valor-p (Wald) dos coeficientes Termo Constante <2e-16 Meses <2e-16 Março-Maio <2e-16 Junho-Setembro <2e-16 Outubro-Novembro e-05 Dia_Semana Sábado <2e-16 Domingo <2e-16 Hora_do_Dia 1-5horas <2e horas <2e horas <2e-16 Limite_Velocidade m/horas e-10 >50 m/horas e-11 Condições_Iluminação Não luz do dia <2e-16 Tipo_Veículo Motocicleta <2e-16 Camião <2e-16 Outro tipo_veículo <2e-16 Género_Condutor Masculino <2e-16 Faixa_etária_Condutor 36-55anos e-08 >55anos <2e-16 Idade_veículo Idade <2e-16 80

89 Tabela 4.2: Resultado obtido a partir da aplicação do método forward stepwise Variáveis explicativas Estimativas Teste de Wald Valor-p (Wald) dos coeficientes Termo Constante <2e-16 Tipo_Veículo Motocicleta <2e-16 Camião <2e-16 Outro tipo_veículo <2e-16 Limite_Velocidade m/horas e-10 >50 m/horas e-11 Condições_Iluminação Não luz do dia <2e-16 Género_Condutor Masculino <2e-16 Dia_Semana Sábado Domingo <2e-16 Faixa_etária_Condutor 36-55anos e-08 >55anos <2e-16 Meses Março-Maio <2e-16 Junho-Setembro <2e-16 Outubro-Novembro e-05 Hora do dia 1-5horas <2e horas <2e horas <2e-16 Idade_veículo Idade <2e-16 81

90 Tabela 4.3: Resultado obtido a partir da aplicação do método both stepwise Variáveis explicativas Estimativas Teste de Wald Valor-p (Wald) dos coeficientes Termo Constante <2e-16 Meses <2e-16 Março-Maio <2e-16 Junho-Setembro <2e-16 Outubro-Novembro e-05 Dia_Semana Sábado <2e-16 Domingo <2e-16 Hora_do_Dia 1-5horas <2e horas <2e horas <2e-16 Limite_Velocidade m/horas e-10 >50 m/horas e-11 Condições_Iluminação Não luz do dia <2e-16 Tipo_Veículo Motocicleta <2e-16 Camião <2e-16 Outro tipo_veículo <2e-16 Género_Condutor Masculino <2e-16 Faixa_etária_Condutor 36-55anos e-08 >55anos <2e-16 Idade_veículo Idade <2e-16 Tabela 4.4: Comparação entre a deviance do modelo1 com o modelo nulo Deviance (D) Modelo nulo (M n) Diferença entre deviance Valor-p Modelo1 (M 1) <2.2e-16 82

91 Anexo 5: Regressão Logística Acidentes com peões ocorridos entre 2005 a 2013 Tabela: Regressão logística ajustado aos dados de acidentes com peões de 2005 a 2013 Variáveis explicativas Estimativas dos coeficientes Teste de Wald Termo Constante ,22 <2e-16 Tipo_Veículo Motocicleta Camião <2e-16 Outro tipo_veículo Limite_Velocidade m/horas >50 m/horas e-16 Condições_Iluminação Valor-p (Wald) Não luz do dia <2e-16 Género_Condutor Masculino e-10 Dia_Semana Sábado e-05 Domingo e-09 Faixa_etária_Condutor 36-55anos e-11 >55anos e-05 Meses Março-Maio Junho-Setembro Outubro-Novembro Idade_veículo Idade

92 Análise de resíduos (Modelo3) Resultado de ajustamento do modelo com a presença das observações e Resultado de ajustamento do modelo sem as observações e Capacidade preditiva do modelo3 (melhor ponto de corte) Gráfico: sensibilidade versus especificidade 84

93 Anexo 6: acidentes com peões na zona rural e urbana Figura 6.1: Frequência de acidentes rodoviários ocorridos na zona urbana e rural Figura 6.2: Percentagem de acidentes ligeiros e não ligeiros na zona rural Figura 6.3: Percentagem de acidentes ligeiros e não ligeiros na zona urbana 85

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Regressão de Poisson e parentes próximos

Regressão de Poisson e parentes próximos Janeiro 2012 Família Exponencial Seja Y uma variável aleatória. A distribuição de probabilidade de Y pertence à família exponencial se a sua função densidade de probabilidade é da forma ( ) yθ b(θ) f (y

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo 1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial UNIVERSIDADE FEDERAL DO PARANÁ Rafael Morciani Alves da Silva Maike Willian Martins dos Santos Mateus Gemelli Ramos Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CESPE/UnB FUB/03 fa 5 4 3 CONHECIMENTOS ESPECÍFICOS 60 As distribuições B e C possuem os mesmos valores para os quartis Q e Q, e o quartil superior em B corresponde ao quartil central (Q ) da distribuição

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Correlação e Regressão

Correlação e Regressão Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

REGRESSÃO E CORRELAÇÃO

REGRESSÃO E CORRELAÇÃO REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Em uma grande escola, 10% dos alunos são comprovadamente fracos. Um teste educacional conseguiu identificar corretamente 80% entre aqueles que são fracos e 85% entre aqueles que

Leia mais

Análise de regressão linear simples. Diagrama de dispersão

Análise de regressão linear simples. Diagrama de dispersão Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

MAE Modelos Lineares Generalizados 2 o semestre 2017

MAE Modelos Lineares Generalizados 2 o semestre 2017 MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z?

Leia mais

Disciplina de Modelos Lineares

Disciplina de Modelos Lineares Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique

Leia mais

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010 Modelos de regressão É usual estarmos interessados em estabelecer uma relação entre uma variável

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS quantidade São Paulo (j = 1) Rio de Janeiro (j = 2) Minas Gerais (j = 3) Rio Grande do Sul (j = 4) total casos novos (X, em milhões) casos pendentes (Y, em milhões) processos

Leia mais

Modelos de Regressão para Dados de Contagem

Modelos de Regressão para Dados de Contagem UNIVERSIDADE FEDERAL DO PARANÁ Departamento de Estatística Modelos de Regressão para Dados de Contagem CE225 - Modelos Lineares Generalizados Professor Cesar Taconelli Andrea A Alves, GRR: 20096668 NathanM

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR ) UNIVERSIDADE FEDERAL DO PARANÁ Adriane Machado (GRR20149152), Cinthia Zamin Cavassola(GRR20149075) e Luiza Hoffelder da Costa(GRR20149107) AJUSTE DE MODELO DE REGRESSÃO LOGÍSTICA REFERENTE À PRESENÇA DE

Leia mais

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência REGRESSÃO LOGÍSTICA É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

Exemplos Modelos de Quase-Verossimilhança

Exemplos Modelos de Quase-Verossimilhança Exemplos Modelos de Quase-Verossimilhança p. 1/40 Exemplos Modelos de Quase-Verossimilhança Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de

Leia mais

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO CE225 - Modelos Lineares Generalizados Eduardo

Leia mais

Trabalho de Modelos Lineares Generalizados

Trabalho de Modelos Lineares Generalizados Universidade Federal do Paraná Trabalho de Modelos Lineares Generalizados Ananda Bordignon 1, Brendha Lima 2, Giovanna Lazzarin 3 12 de Novembro de 2018 1 GRR20149157 2 GRR20149163 3 GRR20149088 1 SUMÁRIO

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - parte I Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos

Leia mais

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates MLG Curso de Modelos Lineares Generalizado - DEST/UFMG 16 de outubro de 2017 Modelo Linear Generalizado Família Exponencial Seja Y a variável de resposta. A distribuição de Y é membro da família exponencial

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

Modelo de regressão Beta

Modelo de regressão Beta Modelo de regressão Beta Fernando Lucambio Pérez Departamento de Estatística Universidade Federal do Paraná Agosto de 2004 1 Consideremos uma situação em que a variável resposta contínua é restrita ao

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos 1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010 Aula - 6/8/010 Econometria Econometria 1. Hipóteses do Modelo de RLM O modelo de regressão linear múltipla Estudar a relação entre uma variável dependente e uma ou mais variáveis independentes. Forma genérica:

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Modelos de Regressão Linear Simples parte I

Modelos de Regressão Linear Simples parte I Modelos de Regressão Linear Simples parte I Erica Castilho Rodrigues 27 de Setembro de 2017 1 2 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir modelos

Leia mais

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2 COMO USAR ESTE LIVRO ÍNDICE PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 Variáveis, Populações e Amostras 1.1. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA 27 1.2. POPULAÇÃO VS. AMOSTRA

Leia mais

Esse material foi extraído de Barbetta (2007 cap 13)

Esse material foi extraído de Barbetta (2007 cap 13) Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos

Leia mais

i j i i Y X X X i j i i i

i j i i Y X X X i j i i i Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

Capítulo 4 Inferência Estatística

Capítulo 4 Inferência Estatística Capítulo 4 Inferência Estatística Slide 1 Resenha Intervalo de Confiança para uma proporção Intervalo de Confiança para o valor médio de uma variável aleatória Intervalo de Confiança para a diferença de

Leia mais

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8) 4 Metodologia Serão apresentadas duas formas de se estimar a persistência. A primeira é de forma mais agregada e se utiliza de dados em forma de triângulos de run-off e é conhecida como Chain Ladder, uma

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

1 z 1 1 z 2. Z =. 1 z n

1 z 1 1 z 2. Z =. 1 z n Gabarito Lista 3. Tópicos de Regressão. 2016-2. 1. Temos que y i ind N (µ, φi ), com log φ i = α + γz i, para i = 1,..., n, portanto (i) para o γ = (α, γ) a matriz modelo ca Z = 1 z 1 1 z 2.. 1 z n (ii)

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 3 4 5 6 7 8 9 10 11 1 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Regressão para Dados Binários - Estudo de Dengue

Regressão para Dados Binários - Estudo de Dengue Universidade Federal do Paraná Departamento de Estatística Regressão para Dados Binários - Estudo de Dengue CE225 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR20124686 Guilherme

Leia mais

Número de Consultas ao Médico

Número de Consultas ao Médico UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA CURSO DE ESTATÍSTICA João Matheus S. K. T. Hneda Lineu Alberto Cavazani de Freitas Número de Consultas ao Médico Análise

Leia mais

Helena Isabel Coutinho Galante. As variáveis da empregabilidade: uma análise exploratória de dados

Helena Isabel Coutinho Galante. As variáveis da empregabilidade: uma análise exploratória de dados Universidade de Aveiro Departamento de Matemática 2014 Helena Isabel Coutinho Galante As variáveis da empregabilidade: uma análise exploratória de dados Universidade de Aveiro Departamento de Matemática

Leia mais

Analise de sobreviventes em acidentes de carros

Analise de sobreviventes em acidentes de carros Analise de sobreviventes em acidentes de carros Modelos Lineares Generalizados Lais Hoffmam GRR20159455 Simone Matsubara GRR20124663 Willian Meira GRR20159077 Yasmin Fernandes ISO20180365 Curitiba 2018

Leia mais

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

b χ 2 (a 1)(b 1), sob H 0,

b χ 2 (a 1)(b 1), sob H 0, ISTITUTO SUPERIOR DE AGROOMIA ESTATÍSTICA E DELIEAMETO 3 de ovembro, 014 PRIMEIRO TESTE 014-15 Uma resolução possível I Tem-se uma tabela de contingências de dimensão 4. 1. O problema colocado corresponde

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2 SUMÁRIO 1 CONCEITOS BÁSICOS, 1 1.1 Introdução, 1 1.2 Conceitos Fundamentais, 2 1.2.1 Objetivo, 2 1.2.2 População e amostra, 2 1.3 Processos estatísticos de abordagem, 2 1.4 Dados estatísticos, 3 1.5 Estatística

Leia mais

Regressão linear simples

Regressão linear simples Regressão linear simples Universidade Estadual de Santa Cruz Ivan Bezerra Allaman Introdução Foi visto na aula anterior que o coeficiente de correlação de Pearson é utilizado para mensurar o grau de associação

Leia mais

Casos. Índice. Parte I. Caso 1 Vendas da empresa Platox. Caso 2 Importação de matéria-prima. Caso 3 Carteira de acções. Caso 4 Lançamento de produto

Casos. Índice. Parte I. Caso 1 Vendas da empresa Platox. Caso 2 Importação de matéria-prima. Caso 3 Carteira de acções. Caso 4 Lançamento de produto Índice PREFÁCIO 15 NOTA INTRODUTÓRIA 17 CONVENÇÕES UTILIZADAS 19 Parte I Casos Caso 1 Vendas da empresa Platox 1. Enquadramento e objectivos 25 2. Aspectos metodológicos 26 3. Resultados e comentários

Leia mais

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013 1 AULA 07 Regressão Ernesto F. L. Amaral 05 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas

Leia mais

Modelos de Regressão Múltipla - Parte VI

Modelos de Regressão Múltipla - Parte VI 1 Modelos de Regressão Múltipla - Parte VI Erica Castilho Rodrigues 7 de Fevereiro de 2017 2 3 Podemos fazer uma transformação na variável resposta Y e/ou na preditora X para: solucionar problemas de variância

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei Regressão PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei Regressão Introdução Analisar a relação entre duas variáveis (x,y) através da equação (equação de regressão) e do gráfico

Leia mais

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Glossário Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Análise de co-variância: Procedimento estatístico utilizado para análise de dados que

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016 Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016 Modelos Lineares Generalizados Lais Hoffmam Simone Matsubara Willian Meira Yasmin Fernandes Curitiba 2018 Sumário 1. Resumo... 3 2. Introdução...

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

Inferência para duas populações

Inferência para duas populações Inferência para duas populações Capítulo 13, Estatística Básica (Bussab&Morettin, 8a Edição) 7a AULA 27/04/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues 7a aula (27/04/2015) MAE229 1 / 27 1.

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra) Testes de Tendência Central (média, mediana, proporção) Classificação Variável 1 Variável 2 Núm ero Gru pos Dependência Teste Z Paramétrico Quantitativa - 1 - Premissas Variância pop. * conhecida Teste

Leia mais

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados. PREVISÃO O problema: usar a informação disponível para tomar boas decisões com impacto no futuro Informação disponível -qualitativa Prever o que irá acontecer -quantitativa: dados t DEI/FCTUC/PGP/00 1

Leia mais

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra Análise da Regressão múltipla: MQO Assintótico Capítulo 5 do Wooldridge Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades

Leia mais

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples - parte III 1 Modelos de Regressão Linear Simples - parte III Erica Castilho Rodrigues 20 de Setembro de 2016 2 3 4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada

Leia mais

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti. Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

Regression and Clinical prediction models

Regression and Clinical prediction models Regression and Clinical prediction models Session 6 Introducing statistical modeling Part 2 (Correlation and Linear regression) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Continuar

Leia mais

Modelos Lineares Generalizados - Regressão Logística

Modelos Lineares Generalizados - Regressão Logística Modelos Lineares Generalizados - Regressão Logística Erica Castilho Rodrigues 26 de Maio de 2014 AIC 3 Vamos ver um critério para comparação de modelos. É muito utilizado para vários tipos de modelo. Mede

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR - 20160239 LUAN FIORENTIN GRR - 20160219 MODELAGEM DE DADOS DE ÓBITOS POR AGRESSÕES NO ESTADO DE SÃO PAULO NO ANO DE 2016 CURITIBA Novembro

Leia mais

i j i i Y X X X i j 1 i 2 i i

i j i i Y X X X i j 1 i 2 i i Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão

Leia mais

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ). Lista 1 - Gabarito Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados 29 de Abril 1. (Concurso Petrobrás - 2011) Em um modelo de regressão logística, o que indica se o modelo se

Leia mais

diferença não aleatória na distribuição dos fatores de risco entre os dois grupos

diferença não aleatória na distribuição dos fatores de risco entre os dois grupos Confundimento erro devido a uma diferença não aleatória na distribuição dos fatores de risco entre os dois grupos. A variável de confundimento está distribuída desigualmente entre os grupos comparados.

Leia mais

Correlação e Regressão Linear

Correlação e Regressão Linear Correlação e Regressão Linear Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais CORRELAÇÃO LINEAR Coeficiente de correlação linear r Mede o grau de relacionamento linear entre valores

Leia mais

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3. 3. Ajuste do Modelo 4. Modelo Restrito Resíduos Resíduos 1 M = I- X(X X) -1 X Hipóteses do modelo Linearidade significa ser linear nos parâmetros. Identificação: Só existe um único conjunto de parâmetros

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. viali@mat.ufrgs.br http://www.mat.ufrgs.br/~viali/ Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento.

Leia mais