Análise do acidente do Titanic

Documentos relacionados
Análise dados de diagnóstico de câncer de mama

Análise de dados de contagem para jogadores de futebol americano

Análise de dados de Contagem

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Tutorial CRISP-DM. Conteúdo. 2. Entendimento dos Dados. 1. Entendimento do Negócio. Objetivo; Descrição.

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

UNIVERSIDADE FEDERAL DO PARANÁ. Departamento de Estatística

Análise Multivariada Aplicada à Contabilidade

Disciplina de Modelos Lineares

Adriane Machado Cinthia Zamin Cavassola Luiza Hoffelder da Costa REGRESSÃO EM DADOS DE CONTAGEM: UM ESTUDO SOBRE A QUANTIDADE DE BICICLETAS ALUGADAS

Regressão linear simples

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

Trabalho de Modelos Lineares Generalizados

Aula 8: Árvores. Rafael Izbicki 1 / 33

Métodos Quantitativos para Avaliação de Políticas Públicas

Mais Informações sobre Itens do Relatório

Utilizando a função auto.arima em modelos de séries temporais

5 Estudo de Caso e Resultados

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

MORTALIDADE DE IDOSOS POR DOENÇAS CARDIOLÓGICAS NA CIDADE DE JOÃO PESSOA-PB

SELEÇÃO DE VARIÁVEIS

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Metodologia Aplicada a Computação.

1 Introdução aos Métodos Estatísticos para Geografia 1

Exemplo Regressão Binomial Dados Emparelhados

ENTENDENDO OS CONCEITOS DE RISCO E RETORNO - (Parte II)

6 ESCALONAMENTO DE CPU

CE071 - Análise de Regressão Linear

Exemplos Equações de Estimação Generalizadas

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Prof. Dr. Marcone Augusto Leal de Oliveira UFJF CURSO INTRODUTÓRIO DE 12 HORAS OFERECIDO PARA A PÓS-GRADUAÇÃO DA UFABC EM NOVEMBRO DE 2017

Aula 2 Uma breve revisão sobre modelos lineares

Testes de Aderência, Homogeneidade e Independência

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

Exemplo Vida Útil de Ferramentas

Modelos de Regressão Linear Simples - parte I

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4

Na aula do dia 24 de outubro analisamos duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Modelos de Regressão Linear Simples parte I

Esse material foi extraído de Barbetta (2007 cap 13)

Testes de Aderência, Homogeneidade e Independência

Teste de hipótese de variância e Análise de Variância (ANOVA)

MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS

Análise de Regressão EST036

Testes de Aderência, Homogeneidade e Independência

Correlação e Regressão Linear

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Transcrição:

Análise do acidente do Titanic Alexandre Morales Diaz Eduardo Pereira Lima Pedro Guilherme Guimaraes Vinicius Larangeiras Trabalho de Modelos Lineares Generalizados (CE-225), Universidade Federal do Paraná, submetido ao professor Cesar Augusto Taconeli. Curitiba 2017

Sumário 1. Resumo... 4 2. Introdução... 4 3. Material e métodos... 5 3.1 Definição da Base de Dados... 5 3.2 Análise descritiva da base... 6 3.3 Ajuste de Modelos... 6 3.3.1 Ajuste usando a base com imputação dos dados faltantes... 6 3.3.2 Ajuste usando a base com dados faltantes removidos... 10 3.3.3 Escolha do modelo... 13 3.3.4 Avaliando o poder preditivo do modelo... 14 4. Conclusão... 15 5. REFERÊNCIAS BIBLIOGRÁFICAS... 15

4 1. Resumo O trabalho consiste em analisar os dados de diversos passageiros e construir um estudo sobre o acidente do Titanic, com uma aplicação de regressão para dados binários para descobrir o que influenciou na morte ou não dos passageiros do Titanic. Palavras chave: Regressão, Dados Binários, Modelos, Ajustes, Titanic. 2. Introdução Neste trabalho será apresentado modelos para análise de dados binários com resposta binária, essa resposta possui duas alternativas, 0 ou 1 (sucesso ou fracasso), no caso desse trabalho a variável resposta a ser considerada, é se o passageiro sobreviveu (1) ou não sobreviveu (0). A base de dados utilizada foi retirada do site: www.kaggle.com. Esse site hospeda diversas base de dados para competições de Data Science. A base contém diversas informações do passageiro, com 12 variáveis como idade, sexo e classe de viagem, entre outras que serão apresentadas mais adiante. Esse grande navio levou 2 anos para ficar pronto, afundou no Oceano Atlântico em 14 de abril de 1912, quando colidiu contra um iceberg, o número exato de mortos é incerto, porque havia passageiros que não pagaram e alguns que desistiram de embarcar de última hora. O navio saiu da Inglaterra com direção a Nova York, com mais de 1500 pessoas a bordo. O Titanic foi feito para ser considerado o navio mais luxuoso e seguro daquela época. Com isso o objetivo desse trabalho é aproveitar essa base de dados disponível e fazer uma regressão para dados binários e como já foi dito levando em consideração como variável resposta se o passageiro sobreviveu ou não ao acidente. E achar um bom modelo que seja satisfatório, através de métodos e testes estatísticos que auxiliem no ajuste do modelo.

5 3. Material e métodos 3.1 Definição da Base de Dados Como já foi dito essa base de dados contém 12 variáveis com informações dos passageiros do Titanic. Mas algumas variáveis como ID do passageiro, nome, número da passagem, porque são informações que não são de interesse e cabine porque havia muitos dados faltantes dos passageiros, foram removidas porque não vai influenciar de nenhuma forma no estudo. Com isso temos a seguinte base de dados: Sobreviveu = 1 se sobreviveu, 0 se não sobreviveu Classe = 1 - primeira classe, 2 - segunda classe, 3 - terceira classe. Sexo = male - masculino, fale feminino. Idade = idade do passageiro em anos. IrmaosConjuge = a quantidade de irmãos e cônjuges que o indivíduo possuía na embarcação. Paiscriancas = quantidade de crianças e idosos (pais) relativos ao passageiro. Tarifa = valor da passagem. Embarque = local onde o passageiro embarcou. S = Southampton, C = Cherbourg-Octeville e Q = Queenstown. Lembrando que essa base não tem o registro de todos os passageiros que estavam no navio, a base contém 891 observações. Além disso, 177 observações não tem a idade na base, com isso usamos uma técnica de imputação multivariada, com a função mice do R, e também analisamos a base excluindo esses registros, para então decidir qual base usaremos para ajustar o modelo final.

6 3.2 Análise descritiva da base Podemos observar que do total de passageiros a bordo, 38,4% sobreviveram e 61,6% não sobreviveram ao desastre. Após realizar a imputação dos dados faltantes, podemos observar na tabela abaixo que a média e outras medidas de dispersão não sofreram alterações que possam comprometer a análise dos dados. Como dito anteriormente, iremos ajustar modelos levando em conta a base que foram removidos os dados faltantes, e num segundo momento ajustaremos modelos com a base que os dados faltantes foram imputados com valores através de técnicas de multivariada. Como forma de avaliar o poder preditivo do modelo, nos dois casos iremos separar uma base de validação. No caso da base com os dados faltantes removidos, iremos usar como base de validação 200 observações, com isso a base de treino ficará com 514 observações. Para a base que os dados faltantes foram imputados valores, usaremos como base de validação 250 observações, com isso a base de treino ficará com 641 observações. 3.3 Ajuste de Modelos Nesta seção iremos ilustrar detalhadamente passo a passo para escolha do melhor modelo. 3.3.1 Ajuste usando a base com imputação dos dados faltantes

7 Num primeiro momento, ajustamos um modelo utilizando todas as variáveis da base. Como podemos observar na tabela abaixo, a variáveis que o ajuste indicou como significativas foram Classe, Sexo, Idade e IrmaosConjuge. Com isso iremos ajustar um modelo somente com as variáveis significativas. Num primeiro momento, tentamos ajustar um modelo com as quatro variáveis significativas, e testando todas as interações possíveis para esse conjunto de quatro variáveis. Como podemos observar abaixo, quase todas as interações foram significativas ao modelo, com isso teríamos que ajustar um modelo com todas elas, sendo assim, seria um modelo muito complexo com limitações às interpretações dos parâmetros. Para tentar ajustar um modelo que seja de melhor interpretação, iremos utilizar um modelo com efeitos

8 aditivos, ou seja, sem interação entre as variáveis. Podemos observar na tabela abaixo que todas as variáveis continuam como significativas, porém o AIC (Critério de Informação de Akaike) do modelo com interações é menos, ou seja, melhor. Com isso decidimos que iremos analisar os resíduos dos dois modelos para então decidir qual se ajusta melhor ao nosso propósito. Abaixo segue os gráficos para análise de resíduos do modelo com interações. Abaixo segue os gráficos para análise de resíduos do modelo sem interações.

9 Analisando os gráficos, podemos concluir que os pressupostos do resíduos estão bem melhor atendidos pelo modelo que não tem interações. A normalidade dos resíduos parece estar bem melhor no modelo sem interações. O mesmo acontece com os possíveis outliers e pontos de alavancagem, que estão bem menores no segundo modelo. Para melhor analisar a normalidade utilizamos o envelope simulado para verificar pontos que estejam fora do intervalo de confiança. Segue os gráficos abaixo.

10 Podemos verificar que no segundo modelo, sem interações, tem alguns pontos fora do envelope, porém como o intervalo de confiança é de 95%, é aceitável que alguns pontos fiquem fora do envelope. 3.3.2 Ajuste usando a base com dados faltantes removidos Nesta etapa, ajustamos um modelo utilizando todas as variáveis da base. Como podemos observar na tabela abaixo, a variáveis que o ajuste indicou como significativas foram Classe, Sexo, Idade e IrmaosConjuge. Com isso iremos ajustar um modelo somente com as variáveis significativas. Num primeiro momento, tentamos ajustar um modelo com as quatro variáveis significativas, e testando todas as interações possíveis para esse conjunto de quatro variáveis. Como podemos observar abaixo, todas as interações foram não significativas ao modelo, ou seja, as interações não irão ajudar no poder preditivo do modelo

11 Na tabela abaixo podemos observar que o modelo com efeitos aditivos, ou seja, sem interações, que todas as variáveis foram significativas ao modelo. Abaixo segue os gráficos para análise de resíduos do modelo com interações.

Abaixo segue os gráficos para análise de resíduos do modelo sem interações. 12

13 Visualmente, não notamos muita diferença na normalidade dos resíduos entre os modelos com e sem interação, porém a distância de cook do e o valor chapéu segundo modelo indica que não temos candidatos a outliers nem a pontos de alavancagem. Utilizando o envelope simulado, verificamos que o segundo modelo se ajusta melhor aos dados, pois tem menos pontos fora do envelope. 3.3.3 Escolha do modelo Conseguimos observar que, levando em conta normalidade dos resíduos, possíveis outliers e pontos de alavancagem, complexidade do modelo (utilizar interação das variáveis), decidimos que o modelo que melhor se ajusta aos dados é o modelo em que não utilizamos interação e que os dados faltantes são removidos da base em vez de imputar os valores utilizando técnicas estatísticas.

14 3.3.4 Avaliando o poder preditivo do modelo Para avaliar o poder preditivo do modelo iremos utilizar algumas medidas, como especificidade, sensibilidade, acurácia, e também a curva ROC. Para proceder a essas técnicas, temos que definir pontos de corte para analisar qual seria o que melhor prevê a sobrevivência ou não dos indivíduos. Após ajustado o modelo, mensuramos a probabilidade de sobrevivência de cada indivíduo da base de validação, para avaliar o poder preditivo do modelo. Feito isso definimos que indivíduos com probabilidade maior ou igual a 50% de sobrevivência vamos definir como predição que eles vão sobreviver, e abaixo de 50% não vão sobreviver. Posteriormente, realizamos o mesmo procedimento para probabilidades de 40% e 60%. Na tabela abaixo podemos observar a sensibilidade, especificidade e acurácia para os diferentes pontos de corte. Outro método para análise seria a curva ROC e o cálculo da área abaixo da curva. Segue abaixo a curva ROC. Para escolha do melhor ponto de corte, devemos escolher o ponto mais esquinado, pois será o ponto mais próximo de sensibilidade e especificidade igual a 1. Visualmente podemos verificar que o ponto de corte 0.5 aparenta ser o ponto mais esquinado. A área sob a curva ROC é mais próximo de 1 para modelos com alto pode preditivo. Após feito os cálculo, a área sob a curva é de 0,85, sendo que em muitas bibliografias, áreas maiores que 0.8 são consideradas excelentes.

15 4. Conclusão Podemos concluir que o ponto de corte com maior equilíbrio entre sensibilidade e especificidade seria o de 0.5, ou seja, que indivíduos com 50% de chance de sobrevivência, sendo esta calculada a partir do modelo escolhido, vão ser classificados como sobreviventes. Além disso, levando em conta complexidade do modelo (interações entre variáveis, imputações de valores faltantes), análise de pressupostos dos resíduos, análise de outliers e pontos de alavancagem, acurácia do modelo, acabamos escolhendo o modelo que não tem interações e que os dados faltantes são removidos da modelagem. 5. REFERÊNCIAS BIBLIOGRÁFICAS https://pt.wikipedia.org/wiki/rms_titanic http://www.minitab.com/ PAULA, Gilberto A. MODELOS DE REGRESSÃO com apoio computacional