Métodos k-vizinhos aplicados à taxa de suicídio no Distrito Federal. Monique Lohane Xavier Silva

Documentos relacionados
A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

Modelos de Suavização Exponencial Aula - 07

Uso de séries temporais na análise da temperatura média mensal da cidade de Mossoró, RN

2 FUNDAMENTACÃO TEÓRICA

Introdução Técnicas Descritivas. Modelos Probabilísticos. Previsão. Exercício 19/11/2012. Recursos Gráficos Decomposição Filtros Lineares

A Metodologia de Box & Jenkins

Desenvolvimento de uma metodologia para avaliação da demanda e capacidade de carga nos principais aeroportos brasileiros

Aula inaugural do curso Análise de Regressão

Ralph S. Silva

Análise do consumo de energia elétrica da cidade de Uberlândia MG, utilizando modelos de séries temporais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

Análise de Regressão EST036

4 Modelos de Regressão Dinâmica

Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Departamento de Demografia e Ciências Atuariais

Análise e Previsão de Séries Temporais Aula 2: Introdução às séries temporais. Eraylson Galdino

Modelagem de séries temporais de demanda de energia elétrica da Universidade Federal de Lavras, correspondentes ao período de 1995 a 2013

Análise do volume útil do reservatório de Furnas via modelos de séries temporais

Investigação Operacional 2º Semestre 2002/2003 Problema Resolvido

Séries Temporais Tendência e sazonalidade.

Coeficiente de determinação R 2 no modelo de regressão linear normal

Introdução. São duas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população.

Análise da série temporal do desemprego em regiões metropolitanas do Brasil

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Análise de Séries Temporais

Análise da série do custo da cesta básica de Belo Horizonte, MG.

Previsão de Séries Temporais utilizando Métodos Estatísticos

Aula 01/10/2018 José Luiz Padilha 01 de outubro de 2018

Capítulo 1. ˆ Observações correlacionadas são mais difíceis de analisar e requerem técnicas

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS PARA PREVISÃO DA TEMPERATURA MÍNIMA DO AR PARA LAVRAS/MG EM 2011

Métodos Quantitativos para Avaliação de Políticas Públicas

Modelos de Regressão Múltipla - Parte VI

Metodologia de Box-Jenkins. Metodologia de Box-Jenkins. Metodologia de Box-Jenkins

Modelos de Regressão Linear Simples - Análise de Resíduos

Análise e previsão das taxas da população ocupada em Fortaleza, Ceará, de setembro de 1991 a dezembro de 2008

4 ANÁLISE DE DESEMPENHO

Modelos de Regressão Linear Simples - Análise de Resíduos

Aula 2 Uma breve revisão sobre modelos lineares

Análise de Séries Temporais

5 Avaliação dos estimadores propostos

Utilização do modelo Holt-Winters para previsão das vendas de leite em um laticínio no oeste paranaense

CONHECIMENTOS ESPECÍFICOS

Interpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem

Análise do custo médio por metro quadrado da construção civil no estado de Minas Gerais usando modelos de séries temporais

3 Aprendizado por reforço

Utilizando a função auto.arima em modelos de séries temporais

Aprendizado de Máquina (Machine Learning)

MODELO APLICADO À PREVISÃO DA DEMANDA DE ENERGIA ELÉTRICA DO CAMPUS I DO CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS (CEFET-MG).

Mais Informações sobre Itens do Relatório

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

7 Teste de Hipóteses

Análise de Regressão Linear Simples e

Esse material foi extraído de Barbetta (2007 cap 13)

6. Predição Linear e Controlo de Variância Mínima

Ajuste de modelos de séries temporais para pressão atmosférica de Uberlândia

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

Correlação e Regressão

Modelos de Regressão Linear Simples - parte I

Anexo I - Estudo Populacional ANEXO I: ESTUDO POPULACIONAL

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS

5 Estudo de Caso e Resultados

Análise Multivariada Aplicada à Contabilidade

6 Aplicação da Metodologia Proposta

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

7 Conclusões e desenvolvimentos futuros

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

4 APLICAÇÃO DO MODELO E RESULTADOS

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Modelo de Regressão Múltipla

Disciplina de Modelos Lineares

LABORATÓRIO Nº 1. Análise de Padrões de Distribuição de Pontos

Prof. Lorí Viali, Dr.

_ Desviopadrão

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Modelagem do preço da soja utilizando a metodologia de análise de séries temporais 1

Aprendizado por Instâncias Janelas de Parzen & Knn

Modelos de Regressão Linear Simples parte I

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Econometria em Finanças e Atuária

AULA 07 Inferência a Partir de Duas Amostras

TÉCNICAS DE AMOSTRAGEM

CONHECIMENTOS ESPECÍFICOS

Redes Neurais e Sistemas Fuzzy

Econometria em Finanças e Atuária

3 Modelos Comparativos: Teoria e Metodologia

ANÁLISE DE SÉRIES TEMPORAIS

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016

Relatório do Seminário Data Mining em Séries Temporais

Análise de regressão linear simples. Diagrama de dispersão

1 Estatística Descritiva

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

Transcrição:

Universidade de Brasília IE - Departamento de Estatística Métodos k-vizinhos aplicados à taxa de suicídio no Distrito Federal Monique Lohane Xavier Silva Projeto apresentado para obtenção do título de Bacharel em Estatística. Brasília 2017

Monique Lohane Xavier Silva MÉTODOS K-VIZINHOS APLICADOS À TAXA DE SUICÍDIO NO DISTRITO FEDERAL Orientador: Prof. Dr. Eduardo Yoshio Nakano Projeto apresentado para obtenção do título de Bacharel em Estatística. Brasília 2017

Resumo Os métodos de suavização de séries temporais permitem ajustar uma melhor curva capaz de representar as principais oscilações da série bruta, sejam essas oscilações tendências ou sazonalidade. Este trabalho visa estudar cinco métodos de suavização de séries temporais: Médias móveis simples, Suavização exponencial simples, Suavização exponencial de Holt, K - vizinhos mais próximos (k-nearest neighbors) e K - últimos vizinhos (Last k neighbors). Para aplicabilidade destes métodos, serão utilizados dados de suicídios no Distrito Federal correspondente ao período de janeiro de 2005 à dezembro de 2014. As variáveis de interesse foram o número e a taxa de suicídio mensal do DF. O objetivo foi encontrar a melhor suavização da série e a predição para os seis primeiros meses do ano de 2015. Palavras-chave: Suicídio. Séries Temporais. Previsão. Modelos. Suavização. 1

Lista de Figuras 1 Exemplo de série não estacionária................ 9 2 Exemplo de série estacionária.................. 9 3 Método knn em t=2....................... 14 4 Método knn em t=3....................... 15 5 Método knn em t=4....................... 15 6 Suavização com o método k-nn................. 16 7 Método LkN em t=3....................... 17 8 Método LkN em t=4....................... 18 9 Método LkN em t=5....................... 18 10 Suavização com o método LkN................. 19 11 Suicídios no DF, 2005 a 2014.................. 21 12 Taxa de suicídios na população - 2005 a 2014.......... 23 13 Número de suicídios para o sexo feminino pelo método MMS com r=12 observações...................... 25 14 Número de suicídios para o sexo masculino pelo método MMS com r=6 observações....................... 25 15 Número de suicídios para a população pelo método MMS com r=11 observações......................... 26 16 Número de suicídios para o sexo feminino pelo método SES com α = 0, 0964.......................... 27 17 Número de suicídios para o sexo masculino pelo método SES com α = 0, 079.......................... 27 18 Número de suicídios para a população pelo método SES com α = 0, 0071............................ 28 19 Número de suicídios para o sexo feminino pelo método SEH com α = 0, 48 e β = 0, 26..................... 29 20 Número de suicídios para o sexo masculino pelo método SEH com α = 0, 5 e β = 0, 27..................... 30 21 Número de suicídios para a população pelo método SEH com α = 0, 3 e β = 0, 21........................ 31 22 Número de suicídios para o sexo feminino pelo método knn com k = 14 observações..................... 32 23 Número de suicídios para o sexo masculino pelo método knn com k = 16 observações..................... 33 24 Número de suicídios para a população pelo método knn com k = 16 observações........................ 34 25 Número de suicídios para o sexo feminino pelo método LkN com k = 41 observações..................... 35 2

26 Número de suicídios para o sexo masculino pelo método LkN com k = 101 observações..................... 36 27 Número de suicídios para a população pelo método LkN com k = 61 observações........................ 37 28 Taxa de suicídio para o sexo feminino pelo método MMS com r=12 observações......................... 39 29 Taxa de suicídio para o sexo masculino pelo método MMS com r=11 observações......................... 39 30 Taxa de suicídio para a população pelo método MMS com r=11 observações......................... 40 31 Taxa de suicídios para o sexo feminino pelo método SES com α = 0, 1044............................ 40 32 Taxa de suicídios para o sexo masculino pelo método SES com α = 0, 0417............................ 41 33 Taxa de suicídios para a população pelo método SES com α = 0, 0682............................... 41 34 Taxa de suicídios para o sexo feminino pelo método SEH com α = 0.5 e β = 0.27........................ 43 35 Taxa de suicídios para o sexo masculino pelo método SEH com α = 0.51 e β = 0.28........................ 44 36 Taxa de suicídios para a população pelo método SEH com α = 0, 31 e β = 0, 22....................... 45 37 Taxa de suicídio para o sexo feminino pelo método knn com k = 14 observações........................ 46 38 Taxa de suicídio para o sexo masculino pelo método knn com k = 16 observações........................ 47 39 Taxa de suicídio para a população pelo método knn com k = 14 observações........................... 48 40 Taxa de suicídio para o sexo feminino pelo método LkN com k = 41 observações........................ 49 41 Taxa de suicídio para o sexo masculino pelo método LkN com k = 85 observações........................ 50 42 Taxa de suicídio para a população pelo método LkN com k = 49 observações........................... 51 3

Lista de Tabelas 1 Frequência de suicídios no DF por ano............. 20 2 Frequência de suicídios no DF por sexo, 2005 a 2014...... 20 3 EQM do método MMS para o número de suicídios no DF entre os anos de 2005 e 2014, segundo o valor de r........... 24 4 Previsão do número de suicídios pelo método SEH do sexo feminino para 2015........................ 29 5 Previsão do número de suicídios pelo método SEH do sexo masculino para 2015....................... 30 6 Previsão do número de suicídios pelo método SEH da população para 2015........................... 31 7 Previsão e IP com 95% de confiança do número de suicídios do sexo feminino para 2015, pelo método knn......... 32 8 Previsão e IP com 95% de confiança do número de suicídios do sexo masculino para 2015, pelo método knn........ 33 9 Previsão e IP com 95% de confiança do número de suicídios da população para 2015, pelo método knn........... 34 10 Previsão e IP com 95% de confiança do número de suicídios do sexo feminino para 2015, pelo método LkN......... 35 11 Previsão e IP com 95% de confiança do número de suicídios do sexo masculino para 2015, pelo método LkN........ 36 12 Previsão e IP com 95% de confiança do número de suicídios da população para 2015, pelo método LkN........... 37 13 EQM do método MMS para a taxa de suicídios no DF 3 entre os anos de 2005 e 2014, segundo o valor de r........... 38 14 Previsão da taxa de suicídios do sexo feminino para 2015, pelo método SEH............................ 42 15 Previsão da taxa de suicídios do sexo masculino para 2015, pelo método SEH......................... 43 16 Previsão da taxa de suicídios do método SEH da população para 2015............................. 44 17 Previsão e IP com 95% de confiança da taxa de suicídios do sexo feminino para 2015, pelo método knn........... 46 18 Previsão e IP com 95% de confiança da taxa de suicídios do sexo masculino para 2015, pelo método knn.......... 47 19 Previsão e IP com 95% de confiança da taxa de suicídios da população para 2015, pelo método knn............ 48 20 Previsão e IP com 95% de confiança da taxa de suicídios do sexo feminino para 2015, pelo método LkN.......... 49 4

21 Previsão e IP com 95% de confiança da taxa de suicídios do sexo masculino para 2015, pelo método LkN.......... 50 22 Previsão e IP com 95% de confiança da taxa de suicídios da população para 2015, pelo método LkN............ 51 23 Previsões do número de suicídio do sexo feminino para os seis últimos meses de 2014...................... 52 24 Previsões do número de suicídio do sexo masculino para os seis últimos meses de 2014...................... 52 25 Previsões do número de suicídio da população para os seis últimos meses de 2014...................... 53 26 Previsões da taxa de suicídio do sexo feminino para os seis últimos meses de 2014...................... 53 27 Previsões da taxa de suicídio do sexo masculino para os seis últimos meses de 2014...................... 54 28 Previsões da taxa de suicídio da população para os seis últimos meses de 2014........................... 54 29 Previsões do número e da taxa de suicídio do sexo feminino para o ano de 2015........................ 55 30 Previsões do número e da taxa de suicídio do sexo masculino para o ano de 2015........................ 55 31 Previsões do número e da taxa de suicídio da população para o ano de 2015........................... 56 5

Sumário 1 INTRODUÇÃO 7 2 REVISÃO DE LITERATURA 8 2.1 Série temporal......................... 8 2.2 Modelos para séries estacionárias............. 8 2.2.1 Médias móveis simples (MMS).............. 10 2.2.2 Suavização exponencial simples (SES).......... 11 2.3 Modelo para séries não estacionárias que apresentam tendência............................. 12 2.3.1 Suavização exponencial de Holt (SEH)......... 12 2.3.2 K-Nearest Neighbors - Time Series Prediction (knn- TSP)............................ 13 2.3.3 Last k neighbors - Time Series Prediction (LkN-TSP). 16 3 DESCRIÇÃO DO PROBLEMA E VARIÁVEIS 20 4 RESULTADOS 24 4.1 Número de suicídios...................... 24 4.1.1 Médias móveis simples - MMS.............. 24 4.1.2 Suavização exponencial simples - SES.......... 26 4.1.3 Suavização exponencial de Holt - SEH......... 28 4.1.4 K-Nearest Neighbors - Time Series Prediction (knn- TSP)............................ 31 4.1.5 Last k Neighbors - Time Series Prediction (LkN-TSP). 34 4.2 Taxa de suicídios........................ 38 4.2.1 Médias móveis simples - MMS.............. 38 4.2.2 Suavização Exponencial Simples - SES......... 40 4.2.3 Suavização Exponencial de Holt - SEH......... 42 4.2.4 k-nearest Neighbors - Time Series Prediction (knn-tsp) 45 4.2.5 Last k Neighbors - LkN................. 48 5 VALIDAÇÃO DOS MODELOS 52 5.1 Número de suicídios...................... 52 5.2 Taxa de suicídios........................ 53 6 COMPARAÇÃO ENTRE OS MODELOS 55 7 CONSIDERAÇÕES FINAIS 57 A APÊNDICE 59 6

1 INTRODUÇÃO Segundo Durkheim (2003), suicídio é todo caso de morte que resulta direta ou indiretamente de um ato positivo ou negativo praticado pela própria vítima; a tentativa de suicídio é o ato assim definido, mas interrompido antes que dele resulte a morte (GOMES, 2017). O suicídio é um problema de saúde pública, configurando como uma das dez causas mais frequentes de morte (WHO, 2013). No Brasil, um mapa da violência foi elaborado por Waiselfisz (2014) e mostrou que o aumento dos suicídios foi superior a 30% entre os anos 2002 e 2012, enquanto o crescimento populacional foi da ordem de 11% neste mesmo período. Existem outras pesquisas sobre o suicídio que estudaram fatores associados ao suicídio e às tentativas de suicídio como a localização, uso de álcool, drogas e condição socioeconômica e cultural (GOMES, 2017). Neste contexto, objetiva-se modelar métodos de séries temporais da taxa e do número de suicídios no Distrito Federal (DF). Para tanto, este artigo enfatiza em cinco métodos de suavização de séries temporais: Médias Móveis Simples e Suavização Exponencial Simples para séries estacionárias; Suavização Exponencial de Holt, K-Nearest Neighbors (K-vizinhos mais próximos) e Last K Neighbors (K últimos vizinhos) para séries que apresentam tendência. Os métodos apropriados para estimar séries temporais com sazonalidade não serão apresentados devido ao fato destas não conterem o nível de sazonalidade. Tal fato foi confirmados por testes de hipóteses em que foi rejeitado a hipótese de sazonalidade. A metodologia apresentada neste artigo foi aplicada nos dados de suicídios do DF entre os anos de 2005 e 2014. A variável de interesse foi o número bruto de suicídios, onde houve a necessidade para fins de estudos da transformação do número para a taxa de suicídios (por 1.000.0000 de habitantes) por mês. Para esses dados, foi encontrada a melhor curva suavizada segundo cada um dos cinco modelos apresentados, assim como estimativas da predição para os seis primeiros meses do ano de 2015. Ao final, foram comparados os resultados das predições obtidas pelos métodos apresentados. Todas as análises consideraram a estratificação por sexo e foram realizadas pelo software livre R (R Core Team, 2017). 7

2 REVISÃO DE LITERATURA O presente projeto pretende descrever como os casos de suicídios no DF estão distribuídos espacialmente e temporalmente. Neste contexto, inicialmente serão estudados os métodos de séries temporais e aplicar o que mais se ajusta à série de suicídios em estudo para desta forma poder prever resultados futuros. A metodologia proposta será aplicada nos dados de suicídios do DF entre os anos de 2005 e 2014. 2.1 Série temporal Sob um espaço de probabilidade (Ω, A, P ), no qual Ω é o espaço amostral, A é a sigma-álgebra, ou seja, uma classe de subconjuntos de Ω, e P é a medida de probabilidade; uma coleção de variáveis aleatórias {X t, t T} é definida como um processo estocástico, sendo T o conjunto de parâmetros do tempo (ROSS, 1996). Segundo Brockwell e Davis (2002) Uma série temporal é um conjunto de observações x t, em que cada uma é registrada em um tempo específico t. De acordo com as definições acima, uma série temporal é realização de um processo estocástico, em ambos os casos as variáveis estão ordenadas no tempo. O conjunto de dados a ser analisado são observações mensais de suicídios ordenadas no período de 2005 a 2015, e como definido acima é uma série temporal. Sendo assim, a seguir serão feitas definições que permitem a analise dos dados de suicídio. 2.2 Modelos para séries estacionárias Uma das possíveis suposições a serem feitas a respeito de séries temporais é que elas são estacionárias. Este comportamento estacionário que algumas séries podem assumir facilita as análises e previsões. Conforme definido por Morettin e Toloi (1981) Uma série é estacionária quando ela se desenvolve no tempo aleatoriamente ao redor de uma média constante, refletindo alguma forma de equilíbrio estável. Como em grande parte das análises de séries temporais supõe-se que estas sejam estacionárias, existem algumas ferramentas que permitem transformar séries não-estacionárias em estacionárias, tais como diferenças sucessivas e 8

transformação de Box-Cox. Maiores detalhes podem ser vistos em Morettin e Toloi (1981; p. 7) e Montgomery e Jennings (2008; p. 34). A Figura 1 mostra uma série que representa o índice de preços do IBOV - Índice IBOVESPA. Nesse primeiro caso, a série não é estacionária. Figura 1: Exemplo de série não estacionária No caso a seguir, após aplicar uma diferença e o logarítimo na série, ela se estabilizou em torno de uma média constante, isto é, se tornou estacionária (Figura 2). Figura 2: Exemplo de série estacionária A seguir serão apresentadas técnicas que auxiliam na estimação de parâmetros associados a essas séries que apresentam o comportamento de estaci- 9

onariedade, assim como sua previsão. 2.2.1 Médias móveis simples (MMS) Seja Z 1, Z 2,..., Z N uma série temporal e a t o ruído aleatório associado à série, ou seja, Z t = µ t + a t, t=1,...,n, (1) onde a t é ruído branco sendo E(a t ) = 0 e V ar(a t ) = σ 2 a, isto é, a t N(0, σ 2 a) e µ t é a média populacional associado aos valores das variáveis aleatórias. A técnica médias móveis simples (MMS) permite a suavização de séries temporais que são invariantes sob translações do tempo, ou seja, estacionárias. Esta técnica consiste em obter a média aritmética das r observações mais recentes, ou seja, Z t (r) = Z t + Z t 1 +... + Z t r+1 (2) r ou Z t (r) = Z t 1 (r) + Z t Z t r (3) r Nas Equações 2 e 3 percebe-se que Z t (r) é uma estimativa do parâmetro µ t desconhecido. Além disso, de observação a observação, faz-se uma média aritmética das r observações mais recentes que percorre toda a série. Isso permite que as observações mais antigas sejam continuamente substituídas pelas mais recentes e, dessa forma, a curva suavizada é construída com base nas médias obtidas. O método MMS, como citado anteriormente, é uma média que leva em consideração um número r de observações para o qual é aplicado o método continuamente. Então, é necessário saber qual o valor ideal de observações, sabendo que quanto maior o valor de r mais suave é a curva estimada. Valores de r muito grandes só é indicado quando a série é altamente aleatória, ou seja, o valor de r deve ser diretamente proporcional à aleatoriedade da série. Deseja-se então encontrar um r que resulte na melhor previsão. Para atender essa e as outras observações, o valor de r escolhido deve ser o que minimiza o EQM (erro quadrático médio) representado por S: N t=r S = [Z t Z t (r)] 2, (4) N r + 1 em que Z t (r) é a média das r observações mais recentes. Esse método apresenta como principais vantagens a simplicidade da aplicação e a aplicabilidade quando se tem poucas observações. Porém, existe a desvantagem da perda das observações extremas a cada iteração realizada. 10

Exemplo: Considere, por exemplo, a série temporal formada pelos valores: 1, 4, 3, 4, 5. Nesse caso, os valores obtidos de S são iguais à: S = 0, 75, para r=2; S = 0, 407, para r=3; S = 1, para r=4; Assim, o valor de r que minimiza a equação (4) é quando r = 3. O valor predito para uma nova observação a h passos à frente, Ẑt+h(r) é definido por Morettin e Toloi (1981) Ẑ t+h (r) = Ẑt(r), (5) em que Ẑt(r) é a média das r observações mais recentes, expressa por (2). 2.2.2 Suavização exponencial simples (SES) Seja Z 1, Z 2,..., Z N uma série temporal. O método de suavização exponencial simples (SES) assim como MMS é aplicado à séries estacionárias e tem como objetivo suavizar essas séries. O modelo de SES, de acordo com Morettin e Toloi (1981), pode ser escrito como: Z t = αz t + α(1 α)z t 1 +... + α(1 α) t 1 Z 1, t=2,3,...,n, (6) onde Z t é o valor exponencialmente suavizado, α é a constante de suavização, 0 < α < 1. Este método apresenta algumas características que eliminam as desvantagens das MMS, o que torna seu uso mais comum. A SES permite, devido às propriedades do parâmetro α, dar maiores pesos às observações mais recentes quanto maior o valor de α. Isso implica que, para α pequeno a curva será mais suavizada e os valores das previsões serão mais estáveis. Nesse caso, quanto mais aleatória for a série, menor deve ser o valor da constante de suavização. Essa é apontada como uma das principais vantagens no uso desse método. Uma forma de obter o melhor valor de α é análogo ao método Médias Móveis. A desvantagem desse método é a determinação do valor ideal de α. O modelo de previsão para esse método é obtido a partir da última observação suavizada, ou seja, Ẑ t+h = Z t, (7) em que Z t é o t-ésimo valor exponencialmente suavizado. 11

2.3 Modelo para séries não estacionárias que apresentam tendência Assim como existem métodos de suavização que são adequados para séries estacionárias, existem também os métodos para séries não estacionárias. Em particular serão tratados nesta seção os métodos apenas para séries estacionárias que apresentam tendência. O uso destes métodos possibilita estimar, representar no modelo e prever resultados que levam em consideração a tendência existente. O método a ser estudado nesse caso será a Suavização Exponencial de Holt. 2.3.1 Suavização exponencial de Holt (SEH) O método Suavização exponencial de Holt (SEH) é similar à SES. A diferença é que SES suaviza apenas o nível da série temporal. Já o método SEH suaviza além do nível, a tendência presente na série, ambos representados pelas constantes α e β, respectivamente. O modelo referente à esse método é o seguinte: Z t = µ + T t + a t, a t N(0, σa) 2, (8) onde µ representa a média, T t a tendência no tempo t e a t o ruído aleatório do processo. Para tal modelo, os valores do nível e da tendência no instante t estimados são inicialmente, isto é, quando t = 2, iguais à Z 2 = Z 2 e ˆT 2 = Z 2 Z 1. Para t 3, as estimativas são, respectivamente: Z t = αz t + α(1 α)( Z t 1 + ˆT t 1 ), (9) ˆT t = β( Z t Z t 1 ) + (1 β) ˆT t 1, (10) em que 0 < α < 1, 0 < β < 1 e em ambos os casos t = 3,..., N. Esse método também tem como característica substituir as observações mais recentes pelas mais antigas. Para determinar os valores ótimos das constantes α e β, deve-se escolher o vetor (α, β) que minimize a equação (4). A previsão para o valor Z t+h é dada por: Ẑ t+h = Z t + h ˆT t, h=1,2,..., (11) em que Z t e ˆT t são dados por (9) e (10), respectivamente. 12

2.3.2 K-Nearest Neighbors - Time Series Prediction (knn-tsp) O algoritmo k-vizinhos mais próximos (k-nn) é um método não-paramétrico utilizado para classificação em grupos, caso as variáveis dependentes sejam discretas, ou para estimação de regressão, caso sejam contínuas. Ele é um algoritmo simples que armazena todos os casos disponíveis e classifica ou prevê novos casos com base em uma medida de similaridade (por exemplo, funções de distância). O trabalho em questão visa analisar o método aplicado somente a varáveis contínuas. Devido a essa diferenciação, utiliza-se o título K-Nearest Neighbors - Time Series Prediction. Aplicado a variáveis contínuas, o método consiste em uma técnica de suavização baseada na regressão linear dos k (pares) pontos vizinhos mais próximos de Z t, dados pelas observações {Z t k/2,..., Z t,...z t+k/2 }. Como resultado do processo, temos a função ajustada f t (z) utilizada para prever quaisquer valores de Z t, indicada na equação (12): f t (z) = α + βz t + a t, (12) em que t = k + 1, k + 2,..., N k ; k=2, 4, 6,... e α, β R. 2 2 2 Os parâmetros α e β presentes na equação 12 podem ser estimados por meio do método de mínimos quadrados. Os ajustes são feitos de forma sucessiva, suavizando todo o conjunto de dados. A determinação do valor de k tem fundamental importância na estimação do modelo. Maiores valores de k permitem estimar a tendência da série com maior precisão e menores valores de k permitem estimar a componente sazonal com maior precisão. Além disso, se k for pequeno, a classificação fica sensível a pontos de ruído. Porém, se k for grande, a vizinhança pode incluir valores distantes. Além disso, maiores (menores) valores de k implicam em intervalos de previsão mais (menos) precisos. Assim, um valor ótimo de k pode ser obtido de forma que o percentual de pontos que caem dentro dos intervalos de confiança sejam próximos à confiança nominal utilizada para construção desses intervalos. A previsão da nova observação é obtida aplicando uma regressão linear simples dos (k + 1) últimos pontos da série. Sendo que a reta de regressão indicará o valor previsto para Ẑt+ k +h que é definido por: 2 Ẑ t+ k 2 +h = ˆα + ˆβZ t+ k +h, (13) 2 em que α e β podem ser estimados pelo método de mínimos quadrados. O intervalo de confiança com (1 α)% para a previsão é feito assim como o intervalo de confiança com (1 α)% para a regressão linear simples. Para exemplificar o método k-nn, considere as figuras a seguir, em que 13

serão ilustrados passo-a-passo a suavização de uma série. Considere também que os valores a serem utilizados são os mesmos do exemplo de MMS, 1, 4, 3, 4, 5. Para esta suavização do k-nn, o parâmetro k escolhido é k = 2, ou seja, a suavização será feita a cada 2 pontos vizinhos mais próximos de t. Figura 3: Método knn em t=2 Nesta Figura 3, para k = 2, sendo definido como k antes de t e k depois de 2 2 t, deseja-se estimar o ponto localizado em t = 2 através da reta de regressão feita com os pontos k = 2 mais próximos de t. O valor predito está destacado em vermelho. 14

Figura 4: Método knn em t=3 Na Figura 4, em que k = 2, deseja-se estimar o ponto t = 3 pela reta de regressão utilizando os k = 2 pontos mais próximos de t. O ponto predito também se encontra destacado em vermelho. Figura 5: Método knn em t=4 O último ponto que pode ser suavizado nesta serie, escolhendo k = 2, é t = 4. Como mostra a Figura 5, fez-se novamente a estimação através da reta de regressão e têm-se o valor predito para este ponto, o qual também está destacado em vermelho. 15

Figura 6: Suavização com o método k-nn Ao final, depois de obter todas as estimativas para t, a união dos pontos preditos gera a suavização da série como mostra a Figura 6. 2.3.3 Last k neighbors - Time Series Prediction (LkN-TSP) Seja Z 1, Z 2,..., Z N uma série temporal não estacionária. O método Last k neighbors (k últimos vizinhos) consiste em fazer uma regressão linear simples da janela de (k 1) pontos anteriores a Z t mais o ponto Z t, isto é, Z t k+1, Z t k+2,..., Z t 1, Z t. Como resultado do processo, temos a função ajustada f t (z) utilizada para prever quaisquer valores de Z t, indicada pela equação (14): f t (z) = α + βz t + a t, (14) em que t = k, k + 1,..., N, e k = 3, 4,..., N. Como em (12) os parâmetros α e β podem ser estimados por meio do método de mínimos quadrados. Os ajustes são feitos de forma sucessiva, suavizando todo o conjunto de dados. Nota-se que um caso particular do método LkN é o MMS, que é obtido tomando ˆβ = 0. A determinação do valor de k tem fundamental importância na estimação do modelo. Maiores valores de k permitem estimar a tendência da série com maior precisão e menores valores de k permitem estimar a componente sazonal com maior precisão. Além disso, se k for pequeno, a classificação fica sensível a pontos de ruído. Porém, se k for grande, a vizinhança pode incluir valores distantes. Além disso, maiores (menores) valores de k implicam em intervalos de previsão mais (menos) precisos. Assim, um valor ótimo de k pode ser obtido de forma que o per- 16

centual de pontos que caem dentro dos intervalos de predição sejam próximo à confiança nominal utilizada para construção desses intervalos. O modelo utilizado para prever quaisquer valores de Z t é definido por uma reta de regressão linear simples aplicado nos k últimos vizinhos é dado por: Ẑ t+h = ˆα + ˆβZ t+h, (15) em que t = k, k + 1, k + 2,..., N e k = 3, 4,..., N + 1.Além disso, α e β são estimados através erro quadrático médio. O intervalo de confiança com (1 α)% para a previsão é feito assim como o intervalo de confiança com (1 α)% para a regressão linear simples. Os exemplos a seguir mostram o passo-a-passo do método LkN, identificando claramente onde o ponto predito pelo método é localizado no tempo t. Figura 7: Método LkN em t=3 A Figura 7 mostra que a partir dos três pontos destacados em preto, isto é, em que t = 3 escolheu-se k = 2 vizinhos anteriores à t, e após fazer uma regressão linear simples desses três pontos, pôde-se obter a estimativa para t = 3, que encontra-se no gráfico destacado em vermelho. 17

Figura 8: Método LkN em t=4 Na Figura 8 o procedimento anterior é repetido, porém, com o ponto sucessivo de t, ou seja, em t = 4. Desta forma, escolhe-se k = 2 pontos anteriores à t = 4, aplica-se a regressão linear simples e obtêm-se o valor predito para t, o qual está destacado de vermelho. Figura 9: Método LkN em t=5 Por último, têm-se a estimação para t = 5, que foi obtido pela reta de regressão aplicada em t = 5 e em seus últimos k = 2 vizinhos. A estimativa deste ponto é dada em vermelho na Figura 5. 18

Figura 10: Suavização com o método LkN Após obter as estimativas dos possíveis pontos da reta, a ligação entre eles é a suavização LkN. Ver Figura 10. 19

3 DESCRIÇÃO DO PROBLEMA E VARIÁ- VEIS Para aplicação do problema em questão, foi utilizado o banco de dados de suicídios ocorridos no Distrito Federal no período de janeiro de 2005 à dezembro de 2014, no qual contém 1088 observações, sendo que todas elas foram consideradas de fato suicídio, e eliminadas as tentativas de suicídio para fim de estudos. O banco contém variáveis de carácter temporal, tais como horário, dia, mês e ano do fato ocorrido; variáveis de localização, como por exemplo o endereço, latitude e longitude; e variáveis de caracterização do perfil da vítima, como o sexo e a idade. As análises descritivas foram feitas com base na frequência de suicídios por ano e frequência por sexo. Tais números são apresentados nas tabelas 1 e 2, respectivamente. Tabela 1: Frequência de suicídios no DF por ano Ano Frequência 2005 83 2006 92 2007 84 2008 87 2009 112 2010 123 2011 97 2012 125 2013 135 2014 140 Tabela 2: Frequência de suicídios no DF por sexo, 2005 a 2014 Sexo Frequência Feminino 244 Masculino 832 Não informado 2 Devido à disponibilidade das variáveis de localização, foi possível elaborar o mapa contendo os locais de ocorrência de cada suicídio, podendo assim ter uma visão geográfica sobre o assunto. 20

15.4 15.6 lat 15.8 16.0 16.2 48.25 48.00 47.75 47.50 lon Figura 11: Suicídios no DF, 2005 a 2014 Para poder dar procedimento nas análises com finalidade de encontrar o melhor método que suavize a série de suicídios, foi necessária a transformação dos números para taxas de suicídios. Para tal explicação, considere a série do número de suicídios e da população no mesmo período dadas pelas figuras (a) a (f) para cada sexo e para a população com ambos os sexos: (a) Número de suicídios na população (b) População por um milhão de habitantes 21

(c) Número de suicídios na população feminina (d) População feminina por um milhão de habitantes (e) Número de suicídios na população masculina (f) População masculina por um milhão de habitantes 22

Como pode-se analisar, o número de suicídios é relativamente crescente ao longo dos anos, assim como a população também cresce ao longo do tempo. Para ter medidas proporcionais e fidedignas, a medida a ser utilizada será a taxa de suicídios por um milhão de habitantes, em que tal crescimento populacional não afetará nos resultados a serem obtidos. A taxa é a medida obtida pela razão entre o número de suicídios e a população para cada ano, e o resultado é multiplicado por 1.000.000 a fim de ter um resultado mais compreensível. A Figura 12 apresenta a taxa de suicídios no DF por 1.000.000 de habitantes. Figura 12: Taxa de suicídios na população - 2005 a 2014 23

4 RESULTADOS Este capítulo visa apresentar os resultados de suavização de cada método, cujos parâmetros obtiveram o menor EQM apresentado pela equação (4). As análises foram feitas segregando a série por sexo e também para a população de ambos os sexos, e por número e taxa de suicídio. 4.1 Número de suicídios Nesta seção serão apresentados os resultados para a número de suicídios. 4.1.1 Médias móveis simples - MMS Para o método MMS foram escolhidas janelas representadas por r de 2 a 12 meses a fim de aplicar as médias móveis simples e para cada r calculou-se o EQM. A quantidade de meses que apresentou o menor EQM representa a suavização de MMS que mais se ajusta ao conjunto de dados do número de suicídios. A previsão futura é dada por uma constante a partir da última observação suavizada. A Tabela 3 mostra os EQMs para a série de suicídios do sexo masculino, sexo feminino e ambos os sexos, denotado como população. Tabela 3: EQM do método MMS para o número de suicídios no DF entre os anos de 2005 e 2014, segundo o valor de r. r Mulheres Homens Total 2 3,693 9,837 13,814 3 3,249 8,510 11,595 4 2,992 7,975 10,598 5 3,002 7,509 10,419 6 2,925 7,017 9,700 7 2,939 7,068 9,706 8 2,860 7,223 9,705 9 2,790 7,354 9,948 10 2,846 7,165 9,660 11 2,771 7,021 9,448 12 2,694 7,040 9,573 Como pode-se ver na Tabela 3, para o sexo feminino o parâmetro r que apresentou menor EQM foi r = 12 com EQM = 2, 694. A previsão do número de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 2,16 casos. A Figura 13 mostra a suavização MMS utilizando a janela de r = 12 meses, assim como a previsão futura para 6 meses. 24

Figura 13: Número de suicídios para o sexo feminino pelo método MMS com r=12 observações Para o sexo masculino a quantidade de meses r que permite suavizar a série com menor EQM é r = 6, isto é, faz-se uma média móvel a cada 6 meses. O EQM para r = 6 é de 7, 017. A previsão do número de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 7,83 casos. A Figura 14 apresenta o resultado da suavização assim como a previsão futura para 6 meses. Figura 14: Número de suicídios para o sexo masculino pelo método MMS com r=6 observações 25

No caso da população, isto é, em que temos ambos os sexos, o r que minimiza o EQM é r = 11 meses, com EQM de 9, 448. A previsão do número de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 10,72 casos. A Figura 15 mostra a suavização e a previsão futura para 6 meses. Figura 15: Número de suicídios para a população pelo método MMS com r=11 observações Note que a previsão do número total de suicídios (10, 72) não corresponde à soma das previsões de suicídios das mulheres e homens (2, 16 + 7, 83 = 9, 99). Isso ocorre pois em cada caso as previsões forma feitas com janelas (r) diferentes. 4.1.2 Suavização exponencial simples - SES Para o método SES, escolheu-se o α, sendo 0 α 1, que minimiza o Erro Quadrático Médio (EQM). Para um valor obtido de α, a previsão futura é obtida a partir da última observação suavizada, Ẑt, dado pela expressão (6) e (7). Para o sexo feminino, o valor do parâmetro α que apresenta menor EQM na série de suicídios do sexo feminino é α = 0, 0964. A previsão do número de suicídios para o mês de janeiro de 2015 (e meses subsequentes) é de 2,48 casos. A Figura 16 mostra a suavização pelo método SES e previsão futura para 6 meses. 26

Figura 16: Número de suicídios para o sexo feminino pelo método SES com α = 0, 0964 O valor do parâmetro α que apresenta menor EQM na série de suicídios do sexo masculino é α = 0, 079. A previsão do número de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 6,51 casos. A Figura 17 mostra a suavização feita com o valor do parâmetro escolhido assim como a previsão futura para 6 meses. Figura 17: Número de suicídios para o sexo masculino pelo método SES com α = 0, 079 27

Para a série de suicídios da população, o valor de α que minimizou o EQM é α = 0, 0071. A previsão do número de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 11,24 casos. O valor de α permite a suavização mostrada na Figura 18 e também a previsão futura para 6 meses. Figura 18: Número de suicídios para a população pelo método SES com α = 0, 0071 Note que, da mesma forma que no modelo MMS, a previsão total (11,24) se diferencia da soma das previsões dos sexos masculino e feminino (2, 48 + 6, 51 = 8, 99). Isso ocorre devido ao uso de valores diferentes de α em cada caso. 4.1.3 Suavização exponencial de Holt - SEH A suavização exponencial de Holt é um método que é capaz de identificar a tendência na série, caso ela exista, e a partir de tal característica, fazse uma suavização levando em conta a tendência. Além do parâmetro α, existe também o parâmetro β, que permite identificar a tendência. Assim como nos métodos anteriores, os parâmetros α e β escolhidos foram os que minimizavam o EQM. A previsão futura dada em (11) depende do último valor suavizado, Zt, e da constante de tendência, ˆT, dados por (9) e (10), respectivamente. Então, para a série feminina do número de suicídios, α = 0, 48 e β = 0, 26. A previsão do número de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 4. É interessante notar que a previsão é decrescente. Isso ocorreu pelo fato dessa previsão estar localizada em ponto de queda e o modelo priorizar a tendência local dos dados. 28

Tabela 4: Previsão do número de suicídios pelo método SEH do sexo feminino para 2015 Mês Previsão Janeiro 2,45 Fevereiro 2,42 Março 2,39 Abril 2,37 Maio 2,34 Junho 2,31 A Figura 19 mostra a suavização feita com tais parâmeros e a previsão futura para 6 meses. Figura 19: Número de suicídios para o sexo feminino pelo método SEH com α = 0, 48 e β = 0, 26 A série do número de suicídios do sexo masculino foi suavizada pelo método com valores α = 0, 5 e β = 0, 27, que foram os parâmetros que apresentaram menores valores do EQM. A previsão do número de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 5. 29

Tabela 5: Previsão do número de suicídios pelo método SEH do sexo masculino para 2015 Mês Previsão Janeiro 5,02 Fevereiro 4,24 Março 3,46 Abril 2,68 Maio 1,91 Junho 1,13 A Figura 20 mostra a série suavizada e a previsão futura para 6 meses. Figura 20: Número de suicídios para o sexo masculino pelo método SEH com α = 0, 5 e β = 0, 27 Para a série do número de suicídios da população, os valores de α e β que minimizaram o EQM é 0, 3 e 0, 21 respectivamente. A previsão do número de suicídios para os seis primeiros meses do ano de 2015 para o a população é mostrado na Tabela 6. 30

Tabela 6: Previsão do número de suicídios pelo método SEH da população para 2015 Mês Previsão Janeiro 8,86 Fevereiro 8,43 Março 7,99 Abril 7,55 Maio 7,11 Junho 6,67 A Figura 21 mostra a suavização e a previsão futura para 6 meses. Figura 21: Número de suicídios para a população pelo método SEH com α = 0, 3 e β = 0, 21 Observa-se que pelos valores diferentes de α e β em cada caso, a previsão total e a soma das previsões de cada sexo não são valores correspondentes. 4.1.4 K-Nearest Neighbors - Time Series Prediction (knn-tsp) O método knn consiste, em suavizar a série tomando k pares pontos em torno de um ponto Z t e faz-se uma regressão linear simples encontrando um Ẑt, isto é, um Z t estimado. Repete-se o procedimento para t = { k 2 +1, k 2 +2,..., N k 2 } sendo k = 2, 4, 6... Neste método foram construídos intervalos de confiança, para a suavização da série, e intervalos de previsão, para as previsões futuras. Para a escolha do valor de k usou-se o critério de que o percentual desses k pontos que caem dentro do intervalo de confiança seja aproximadamente o nível de confiança deste intervalo, que no caso é 95%. A previsão da nova 31

observação é obtida aplicando uma regressão linear simples nos (k+1) últimos pontos da série. A série do número de suicídios para o sexo feminino resultou em k = 14 observações. Assim, a previsão e o intervalo de previsão (IP) com 95% de confiança do número de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 7. Tabela 7: Previsão e IP com 95% de confiança do número de suicídios do sexo feminino para 2015, pelo método knn Mês Previsão Limite Inferior 1 Limite Superior Janeiro 2.30 0 5.65 Fevereiro 2.28 0 5.64 Março 2.26 0 5.65 Abril 2.23 0 5.66 Maio 2.21 0 5.68 Junho 2.18 0 5.72 1 Limite inferior truncado no valor zero. A Figura 22 mostra a suavização deste método com k = 14, a previsão futura para 6 meses e os intervalos de confiança e previsão construídos com 95% de confiança. Figura 22: Número de suicídios para o sexo feminino pelo método knn com k = 14 observações A série do número de suicídios do sexo masculino obteve a melhor suavização com k = 16 observações. A previsão e o intervalo de previsão (IP) 32

com 95% de confiança do número de suicídios para os seis primeiros meses do ano de 2015 para o sexo masculino é mostrado na Tabela 8. Tabela 8: Previsão e IP com 95% de confiança do número de suicídios do sexo masculino para 2015, pelo método knn Mês Previsão Limite Inferior Limite Superior Janeiro 8.97 3.75 14.20 Fevereiro 8.71 3.47 13.96 Março 8.45 3.17 13.72 Abril 8.19 2.87 13.50 Maio 7.92 2.55 13.29 Junho 7.66 2.23 13.10 A Figura 23 mostra a suavização knn com k = 16, a previsão futura para 6 meses e os intervalos de confiança e previsão construídos com 95% de confiança. Figura 23: Número de suicídios para o sexo masculino pelo método knn com k = 16 observações Para a série do número de suicídios da população, a melhor suavização foi obtida com k = 16 observações. A previsão e o intervalo de previsão (IP) com 95% de confiança do número de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 9. 33

Tabela 9: Previsão e IP com 95% de confiança do número de suicídios da população para 2015, pelo método knn Mês Previsão Limite Inferior Limite Superior Janeiro 11.26 4.86 17.67 Fevereiro 11.00 4.57 17.43 Março 10.74 4.27 17.20 Abril 10.47 3.96 16.99 Maio 10.21 3.63 16.79 Junho 9.94 3.28 16.60 A Figura 24 mostra a suavização knn com k = 16, a previsão futura para 6 meses e os intervalos de confiança e previsão construídos com 95% de confiança. Figura 24: Número de suicídios para a população pelo método knn com k = 16 observações Observe que a soma dos valores das previsões do número de suicídios do sexo masculino e feminino não correspondem ao valor da previsão total devido à valores de k diferentes em pelo menos 2 casos. 4.1.5 Last k Neighbors - Time Series Prediction (LkN-TSP) O método LkN é semelhante ao anterior, porém, ao invés de tomar k pares de ponto em torno de t, escolhe-se (k 1) pontos anteriores a Z t mais o ponto Z t para aplicar a regressão linear simples, encontrando Ẑt, ou seja, o ponto Z t estimado. Neste caso, t = k, k + 1,..., k + N e k = 3, 4,..., N. Assim como em knn, o valor de k é obtido de foram que o percentual que 34

k representa de pontos dentro do intervalo seja aproximadamente igual ao nível de confiança deste intervalo. Neste caso, os intervalos de previsão foram construídos também com 95% de confiança. A série do número de suicídios para o sexo feminino obteve a suavização em que k é igual à 41 observações. A previsão e intervalo de previsão (IP) com 95% de confiança do número de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 10. Tabela 10: Previsão e IP com 95% de confiança do número de suicídios do sexo feminino para 2015, pelo método LkN Mês Previsão Limite Inferior 2 Limite Superior Janeiro 2.54 0 5.76 Fevereiro 2.55 0 5.79 Março 2.56 0 5.81 Abril 2.57 0 5.83 Maio 2.58 0 5.85 Junho 2.59 0 5.88 2 Limite inferior truncado no valor zero. A Figura 25 mostra a suavização deste método com k = 41, a previsão futura para 6 meses e os intervalos de confiança e previsão construídos com 95% de confiança. Figura 25: Número de suicídios para o sexo feminino pelo método LkN com k = 41 observações 35

A série do número de suicídios do sexo masculino apresentou a melhor suavização com valor de k = 101 observações. Assim, a previsão e o intervalo de previsão (IP) com 95% de confiança do número de suicídios para os 6 primeiros meses do ano 2015 é expresso na Tabela 11. Tabela 11: Previsão e IP com 95% de confiança do número de suicídios do sexo masculino para 2015, pelo método LkN Mês Previsão Limite Inferior Limite Superior Janeiro 9.21 4.30 14.11 Fevereiro 9.25 4.34 14.16 Março 9.28 4.37 14.20 Abril 9.32 4.41 14.24 Maio 9.36 4.44 14.28 Junho 9.40 4.48 14.32 A Figura 26 mostra a suavização knn, a previsão futura para 6 meses e os intervalos de confiança e previsão construídos com 95% de confiança. Figura 26: Número de suicídios para o sexo masculino pelo método LkN com k = 101 observações A série do número de suicídios da população apresentou melhor suavização com k = 61 observações. A Tabela 12 mostra os valores para as previsões dos 6 primeiros meses de 2015 assim como seus respectivos intervalos de previsão com 95% de confiança. 36

Tabela 12: Previsão e IP com 95% de confiança do número de suicídios da população para 2015, pelo método LkN Mês Previsão Limite Inferior Limite Superior Janeiro 11.22 5.13 17.32 Fevereiro 11.25 5.15 17.36 Março 11.29 5.17 17.40 Abril 11.32 5.20 17.44 Maio 11.35 5.22 17.48 Junho 11.38 5.24 17.52 A Figura 27 mostra a suavização LkN com k = 61, a previsão futura para 6 meses e os intervalos de confiança e previsão construídos com 95% de confiança. Figura 27: Número de suicídios para a população pelo método LkN com k = 61 observações Observe que a soma dos valores das previsões do número de suicídios do sexo masculino e feminino não correspondem ao valor da previsão total devido à valores de k diferentes em pelo menos 2 casos. 37

4.2 Taxa de suicídios Nesta seção serão apresentados os resultados para a taxa de suicídio para casos por 1.000.000 de habitantes. 4.2.1 Médias móveis simples - MMS Para o método MMS foram escolhidas janelas representadas por r de 2 a 12 meses a fim de aplicar as médias móveis simples e para cada r calculou-se o EQM. A quantidade de meses que apresentou o menor EQM representa a suavização de MMS que mais se ajusta ao conjunto de dados da taxa de suicídios. A previsão futura é dada por uma constante a partir da última observação suavizada. A Tabela 13 mostra os EQMs para a série de suicídios do sexo masculino, sexo feminino e ambos os sexos, denotado como população. Tabela 13: EQM do método MMS para a taxa de suicídios no DF 3 entre os anos de 2005 e 2014, segundo o valor de r. M Mulheres Homens Total 2 2,040 6,808 2,178 3 1,780 5,807 1,801 4 1,637 5,425 1,644 5 1,635 5,107 1,612 6 1,588 4,758 1,499 7 1,596 4,778 1,495 8 1,552 4,869 1,492 9 1,514 4,934 1,522 10 1,540 4,784 1,468 11 1,495 4,672 1,429 12 1,452 4,695 1,450 3 Casos por 1.000.000 de habitantes. Como pode-se ver na Tabela 13, para o sexo feminino o parâmetro r que apresentou menor EQM foi r = 12 com EQM = 1, 452. A previsão da taxa de suicídios para o mês de janeiro de 2015 (e meses subsequentes) é igual a 1,44 casos por 1.000.000 de habitantes. A Figura 28 mostra a suavização MMS utilizando a janela de r = 12 meses, assim como a previsão futura para 6 meses. 38

Figura 28: Taxa de suicídio para o sexo feminino pelo método MMS com r=12 observações Para o sexo masculino a quantidade de meses r que permite suavizar a série com menor EQM é r = 11. O EQM para r = 11 é de 4, 672. A previsão da taxa de suicídios para o mês de janeiro de 2015 (e meses subsequentes) é igual a 6,51 casos por 1.000.000 de habitantes. A Figura 29 apresenta o resultado da suavização assim como a previsão futura para 6 meses. Figura 29: Taxa de suicídio para o sexo masculino pelo método MMS com r=11 observações No caso da população, isto é, em que temos ambos os sexos, o r que minimiza o EQM é r = 11 meses, com EQM de 1, 429. A previsão da taxa de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 3,76 casos por 1.000.000 de habitantes. A Figura 30 mostra a suavização e a previsão futura para 6 meses. 39

Figura 30: Taxa de suicídio para a população pelo método MMS com r=11 observações 4.2.2 Suavização Exponencial Simples - SES Para o método SES, escolheu-se o α, sendo 0 α 1, que minimiza o Erro Quadrático Médio (EQM). Para um valor obtido de α, a previsão futura é obtida a partir da última observação suavizada, Ẑt, dado pela expressão (6) e (7). Para o sexo feminino, o valor do parâmetro α que apresenta menor EQM na série de suicídios do sexo feminino é α = 0, 1044. A previsão da taxa de suicídios para o mês de janeiro de 2015 (e meses subsequentes) é de 1,68 casos por 1.000.000 de habitantes. A Figura 31 mostra a suavização pelo método SES e previsão futura para 6 meses. Figura 31: Taxa de suicídios para o sexo feminino pelo método SES com α = 0, 1044 40

O valor do parâmetro α que apresenta menor EQM na série de suicídios do sexo masculino é α = 0, 0417. A previsão da taxa de suicídios para o mês de janeiro de 2015 (e meses subsequentes) é igual a 6,34 casos por 1.000.000 de habitantes. A Figura 32 mostra a suavização feita com o valor do parâmetro escolhido assim como a previsão futura para 6 meses. Figura 32: Taxa de suicídios para o sexo masculino pelo método SES com α = 0, 0417 Para a série de suicídios da população, o valor de α que minimizou o EQM é α = 0, 0682. A previsão da taxa de suicídios, para o mês de janeiro de 2015 (e meses subsequentes) é igual a 3,94 casos por 1.000.000 de habitantes. O valor de α permite a suavização mostrada na Figura 18 e também a previsão futura para 6 meses. Figura 33: Taxa de suicídios para a população pelo método SES com α = 0, 0682 41

4.2.3 Suavização Exponencial de Holt - SEH A suavização exponencial de Holt é um método que é capaz de identificar a tendência na série, caso ela exista, e a partir de tal característica, fazse uma suavização levando em conta a tendência. Além do parâmetro α, existe também o parâmetro β, que permite identificar a tendência. Assim como nos métodos anteriores, os parâmetros α e β escolhidos foram os que minimizavam o EQM. A previsão futura dada em (11) depende do último valor suavizado, Zt, e da constante de tendência, ˆT, dados por (9) e (10), respectivamente. Então, para a série feminina da taxa de suicídios, α = 0, 5 e β = 0, 27. A previsão da taxa de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 14. É interessante notar que a previsão é decrescente. Isso ocorreu pelo fato dessa previsão estar localizada em ponto de queda e o modelo priorizar a tendência local dos dados. Tabela 14: Previsão da taxa de suicídios do sexo feminino para 2015, pelo método SEH Mês Previsão da taxa de suicídios 4 Janeiro 1,60 Fevereiro 1,56 Março 1,53 Abril 1,50 Maio 1,46 Junho 1,43 4 Casos por 1.000.000 de habitantes. A Figura 34 mostra a suavização feita com tais parâmeros e a previsão futura para 6 meses. 42

Figura 34: Taxa de suicídios para o sexo feminino pelo método SEH com α = 0.5 e β = 0.27 A série da taxa de suicídios do sexo masculino foi suavizada pelo método com valores α = 0, 51 e β = 0, 28, que foram os parâmetros que apresentaram menores valores do EQM. A previsão da taxa de suicídios para os seis primeiros meses do ano de 2015 é mostrado na Tabela 15. Tabela 15: Previsão da taxa de suicídios do sexo masculino para 2015, pelo método SEH Mês Previsão da taxa de suicídios 5 Janeiro 3,66 Fevereiro 3,06 Março 2,46 Abril 1,86 Maio 1,27 Junho 0,67 5 Casos por 1.000.000 de habitantes. A Figura 35 mostra a série suavizada com α = 0, 51 e β = 0, 28 e a previsão futura para 6 meses. 43

Figura 35: Taxa de suicídios para o sexo masculino pelo método SEH com α = 0.51 e β = 0.28 Para a série da taxa de suicídios da população, os valores de α e β que minimizaram o EQM é 0, 31 e 0, 22 respectivamente. A previsão da taxa de suicídios para os seis primeiros meses do ano de 2015 para o a população é mostrado na Tabela 16. Tabela 16: Previsão da taxa de suicídios do método SEH da população para 2015 Mês Previsão da taxa de suicídios 6 Janeiro 3,07 Fevereiro 2,90 Março 2,74 Abril 2,57 Maio 2,41 Junho 2,24 6 Casos por 1.000.000 de habitantes. A Figura 36 mostra a suavização com α = 0, 31 e β = 0, 22 e a previsão futura para 6 meses. 44