CE225 Modelos Lineares Generalizados

Documentos relacionados
A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS

Modelos de Regressão para Dados de Contagem

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

Filho, não é um bicho: chama-se Estatística!

Como montar meu conjunto de dados?

Apontamentos de Introdução às Probabilidades e à Estatística

ESTATÍSTICA DESCRITIVA

Aula 2 Uma breve revisão sobre modelos lineares

SS714 - Bioestatística

Métodos Quantitativos para Avaliação de Políticas Públicas

Introdução aos Modelos Lineares em Ecologia

Metodologia Científica I Roumayne Andrade

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

Métodos Estatísticos Avançados em Epidemiologia

CONHECIMENTOS ESPECÍFICOS

ESTATÍSTICA DESCRITIVA

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

CE071 - ANÁLISE DE REGRESSÃO LINEAR

SCC0173 Mineração de Dados Biológicos

Análise de dados em Geociências

Análise de dados de Contagem

Modelos lineares generalizados: um estudo sobre leilões de veículos

24/09/17. O que é uma hipótese? Testes de hipótese. Três tipos básicos de perguntas. E qual é a sua hipótese? Três tipos básicos de perguntas

Idade (anos) n % n % , , , , , , ,167 Total

Unidade III Medidas Descritivas

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

Lista 1 de Exercícios Estatística II-CE003

ANOVA - parte I Conceitos Básicos

i j i i Y X X X i j i i i

Modelo de regressão Beta

Precificação de apartamentos para o bairro Água Verde em Curitiba

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

Métodos Estatísticos Avançados em Epidemiologia

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Número de Consultas ao Médico

Exemplos Modelos de Quase-Verossimilhança

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Seminários em Bioestatística

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

Regressão Logística: Um Estudo sobre o Uso de Tabaco entre Alunos da Universidade Federal do Paraná Curitiba

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Síndrome Metabólica no adulto jovem. Origina-se no nascimento ou na infância?

Função prcomp. 1. Introdução

GRUPO COPPA: ATIVIDADE INTERDISCIPLINAR NO PATOLOGIAS ASSOCIADAS BRIGITTE OLICHON LUMENA MOTTA REGINA BOSIO

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

MULHERES NO TRÂNSITO

Unidade III Medidas Descritivas

INTRODUÇÃO Avaliação Morfofuncional

Apostila de estatística básica Minitab Organizador: Daniel Magalhães Lima. Autores:

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

RELAÇÃO ENTRE EXPECTATIVA DE VIDA E CARACTERÍSTICAS DOS ESTADOS NORTE-AMERICANOS ENTRE OS ANOS DE 1969 E 1970

Estatística descritiva

CE-001: Bioestatística, turma A

Modelos de Regressão Linear Simples parte I

Universidade Federal do Paraná Departamento de Estatística Disciplina CE001 Bioestatística Turma A Prof. Cesar Augusto Taconeli

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame NOME:

Modelos de Regressão Linear Simples - parte I

ANEXO 2 EXERCÍCIOS MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE

1 Introdução aos Métodos Estatísticos para Geografia 1

Regressão Linear Múltipla no R MAE-0217: ESTATÍSTICA DESCRITIVA MAIO DE 2017 PROFESSORA: MÁRCIA D ELIA BRANCO

Distribuições de Probabilidade

Coleta e Modelagem dos Dados de Entrada

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Exemplo Multicolinearidade

Regression and Clinical prediction models

i j i i Y X X X i j 1 i 2 i i

Coleta e Modelagem dos Dados de Entrada

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

RECURSOS GRÁFICOS TIAGO M. MAGALHÃES. São Paulo, 10 de janeiro de 2013

Estatística Computacional Profª Karine Sato da Silva

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Anexo 1. Determinação do Índice de Massa Corporal* Estatuto de peso corporal <18.5 Falta de peso Normal

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

RECURSOS GRÁFICOS TIAGO M. MAGALHÃES. São Paulo, 13 de janeiro de 2014

Modelos Binomial e Poisson

Análise de Dados Categóricos

Trabalho de Modelos Lineares Generalizados

Stela Adami Vayego DEST/UFPR

Exame da OAB. Gilberto A. Paula. Departamento de Estatística IME-USP, Brasil

Módulo VII: Estatística elementar

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

ATIVIDADE DE REVISÃO AULA 10 EXERCÍCIOS DE REVISÃO

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

Medidas de Dispersão. Prof.: Joni Fusinato

Exemplo Cupons com Desconto

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Função prcomp em R. 1. Introdução

Exame Final de Métodos Estatísticos

Estatística Experimental

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Regressão para Dados Binários - Estudo de Dengue

Princípios de Bioestatística Estatística Descritiva/Exploratória

Probabilidade e Modelos Probabilísticos

Transcrição:

CE225 Modelos Lineares Generalizados 1

"Todos os modelos são errados; alguns modelos são úteis" George Box (1919-2013) 2

Objetivo da disciplina Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados, propostos originalmente em Nelder e Wedderburn (1972), que configuram extensões dos modelos lineares clássicos (com erros normalmente distribuídos) e que permitem analisar a relação funcional entre um conjunto de variáveis independentes e uma variável aleatória dependente com distribuição pertencente à família exponencial de distribuições. A família exponencial contempla, dentre outras, as distribuições normal, exponencial, gama, normal inversa, Poisson, binomial e binomial negativa. Na sequência são descritos alguns dos problemas que serão analisados, ao longo do semestre, usando elementos de Modelos Lineares Generalizados. 3

Exemplos de motivação 4

Exemplo 1 Análise da resistência de uma nova fibra sintética usada na produção de camisas. Sabendo-se que a resistência da fibra é afetada pela quantidade de algodão utilizada, e que a quantidade de algodão no produto final, de acordo com as características desejadas, deve estar no intervalo de 10 a 40%, um experimento é delineado com cinco réplicas (amostras de tecidos) para cinco diferentes especificações referentes à quantidade de algodão. Variável resposta: Resistência da fibra (em libras/pol 2 ). Variável explicativa: Porcentagem de algodão no tecido, com cinco níveis: 15, 20, 25, 30 e 35%. 5

Dados Quadro 1 Dados de resistência (em libras/pol 2 ) para o experimento de fibra sintética. Porcentagem Amostra de tecido de algodão 1 2 3 4 5 15 7 7 15 11 9 20 12 17 12 18 18 25 14 18 18 19 19 30 19 25 22 19 23 35 7 10 11 15 11 Objetivos: Avaliar o efeito da porcentagem de algodão na resistência da fibra sintética; Identificar a porcentagem ideal de algodão de forma a se obter máxima resistência. 6

25 20 Resistência da fibra 15 10 15 20 25 30 35 Porcentagem de algodão Figura 1 Gráfico de dispersão para as resistências das fibras sob cinco porcentagens distintas de algodão. 7

Exemplo 2 Amostras de 20 insetos (Heliothis virescens - praga do algodão) foram expostas a doses crescentes do cipermetrina, dois dias depois da emergência da pupa (Collet, 2002). Após 72h, foram contados os insetos mortos. Variável resposta: Número de insetos mortos. Variáveis explicativas Dose de cipermetrina: 1, 2, 4, 8, 16, 32 u.m.: Sexo do inseto (macho ou fêmea). 8

Quadro 2 Números de insetos mortos em amostras de 20 insetos machos e fêmeas submetidos a doses crescentes de cipermetrina. Dose Nº insetos mortos Log2(Dose) Machos Fêmeas 1,0 0 1 0 2,0 1 4 2 4,0 2 9 6 8,0 3 13 10 16,0 4 18 12 32,0 5 20 16 9

Objetivos: Propor um modelo que descreva o aumento na mortalidade dos insetos segundo a dose de aplicada de cipermetrina; Comparar as curvas de mortalidade para insetos machos e fêmeas; Estimar doses letais, ou seja, doses efetivas (mortais) para uma determinada proporção p de insetos. 10

1.0 0.8 Machos Fêmeas Proporção de insetos mortos 0.6 0.4 0.2 0.0 0 1 2 3 4 5 log(dose) Figura 2 Gráfico da proporção de insetos mortos segundo o sexo e a dose de inseticida. 11

Exemplo 3 - Uma população de mulheres indígenas vivendo numa região próxima a Phoenix, Arizona, foi testada para diabetes de acordo com o critério estabelecido pela Organização Mundial de Saúde. Os dados foram coletados pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais dos EUA. São considerados os dados referentes aos 532 registros completos. Variáveis explicativas Gestações - número de gestações; GlicOral - concentração de glicose no plasma no teste de tolerância à glicose oral. Pressão - pressão arterial diastólica (mm Hg). Prega - espessura da prega tricipital (mm). IMC - índice de massa corporal (peso/altura 2 ). Pedigree - função pedigree diabetes. Idade - idade em anos. Variável resposta Diagnóstico diagnóstico de diabetes de acordo com o teste de Glicemia em Jejum. 12

Notas: O Teste Oral de Tolerância à Glicose (também conhecido como Curva Glicêmica) é feito da seguinte maneira: a pessoa com suspeita de diabetes ingere 75g de glicose diluída em água. Após duas horas de espera, é feita a coleta de sangue para medir a taxa de glicose. Se o resultado for igual ou superior a 200mg/dl (miligramas por decilitro), o indivíduo é considerado portador de diabetes. Se a glicemia estiver entre 140mg/dl e 199mg/dl, então o diagnóstico é de pré-diabetes. 13

Dados - Seis primeiras linhas da base: Indiv Gestações GlicOral Pressão Prega IMC Pedigree Idade Diagnóstico 1 5 86 68 28 30.2 0.364 25 Não 2 7 195 70 33 25.1 0.163 55 Sim 3 5 77 82 41 35.8 0.156 35 Não 4 0 165 76 43 47.9 0.259 26 Não 5 0 107 60 25 26.4 0.133 23 Não 6 5 97 76 27 35.6 0.378 52 Sim 14

Objetivos: Identificar fatores associados à incidência de diabetes; Estabelecer um modelo preditivo para o diagnóstico de diabetes. 15

Gravidez 14 12 10 8 6 4 2 0 Glicose 200 180 160 140 120 100 80 60 Pressão arterial (mmhg) 110 100 90 80 70 60 50 40 Espessura prega tric. 100 80 60 40 20 Não Sim Não Sim Não Sim Não Sim Diagnóstico Diagnóstico Diagnóstico Diagnóstico IMC (kg/m2) 45 40 35 30 25 20 Pedigree 2.0 1.5 1.0 0.5 0.0 Idade (amos) 60 50 40 30 20 Número de pacientes 120 100 80 60 40 20 0 Não Sim Não Sim Não Sim Não Sim Diagnóstico Diagnóstico Diagnóstico Diagnóstico Figura 3 Distribuição das variáveis explicativas segundo o diagnóstico de diabetes. 16

Tabela 1 Médias, desvios padrões e estatística do teste t (comparação de duas médias), para amostras independentes, para as variáveis explicativas segundo o diagnóstico Variável Diagnóstico Estatística Não Sim t Número de gestações 2,9 (2,8) 4,8 (4,0) -3,56 Glicose (oral) 113 (26) 145 (30) -7,38 Pressão diastólica 69 (11) 74 (11) -2,95 Espessura prega tricipital 27 (11) 33 (12) -3,39 Pedigree 0,41 (0,27) 0,55 (0,36) -4,51 Idade 29 (10) 37 (11) -2,70 17

60 100 140 180 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 200 180 160 140 120 100 80 60 100 80 60 40 20 npreg glu bp skin 14 12 10 8 6 4 2 0 110 100 90 80 70 60 50 40 bmi 45 40 35 30 25 20 2.0 1.5 1.0 0.5 0.0 ped 0 2 4 6 8 12 40 60 80 100 20 30 40 20 30 40 50 60 age 60 50 40 30 20 Figura 4 Matriz de gráficos de dispersão para as variáveis explicativas. 18

Exemplo 4 Estudo prospectivo com 100 indivíduos de pelo menos 65 anos de idade em boas condições físicas. O objetivo do estudo é tentar relacionar o número de quedas num período de seis meses com as seguintes variáveis explicativas, descritas na ordem em que aparecem na base: Variáveis explicativas: Intervenção Fator com níveis Educ : educação somente; Educ+Exerc : educação e exercícios físicos; Sexo Fator com níveis Fem : feminino; Masc : masculino; Balanço escore de equilíbrio do indivíduo, numa escala de 0 a 100 (quanto maior o escore, maior o equilíbrio; Força escore de força do indivíduo, numa escala de 0 a 100 (quanto maior o escore, maior a força). Variável resposta: Quedas número de quedas no período; 19

Dados - Seis primeiras linhas da base: Indiv Número Escore de Escore de Intervenção Sexo de quedas equilíbrio força 1 1 Educ+Exerc Fem 45 70 2 1 Educ+Exerc Fem 62 66 3 2 Educ+Exerc Masc 43 64 4 0 Educ+Exerc Masc 76 48 5 2 Educ+Exerc Fem 51 72 6 1 Educ+Exerc Masc 73 39 20

Objetivos: Avaliar o efeito da intervenção na prevenção das quedas; Identificar características dos indivíduos associadas a um maior número de quedas. 21

Análise descritiva (univariada) > summary(geriatra) quedas intervenção sexo balanço força Min. : 0.00 Educ :50 Fem :47 Min. :13.00 Min. :18.00 1st Qu.: 1.00 Educ+Exerc:50 Masc:53 1st Qu.:39.00 1st Qu.:52.00 Median : 3.00 Median :51.50 Median :60.00 Mean : 3.04 Mean :52.83 Mean :60.78 3rd Qu.: 4.00 3rd Qu.:66.25 3rd Qu.:70.25 Max. :11.00 Max. :98.00 Max. :90.00 22

Análise descritiva (bivariada): o Número de quedas vs intervenção; > with(geriatra,describeby(quedas, intervenção, mat = TRUE,digits=2)) item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 Educ 1 50 4.52 2.40 4 4.25 1.48 1 11 10 0.89-0.07 0.34 12 2 Educ+Exerc 1 50 1.56 1.33 1 1.43 1.48 0 5 5 0.62-0.52 0.19 o Número de quedas vs sexo; > with(geriatra,describeby(quedas, sexo, mat = TRUE,digits=2)) item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 Fem 1 47 3.47 2.49 3 3.21 1.48 0 11 11 0.98 0.70 0.36 12 2 Masc 1 53 2.66 2.34 2 2.35 1.48 0 10 10 1.18 1.08 0.32 23

o Número de quedas vs nível de balanço; > with(geriatra,describeby(quedas, cut(balanço,4), mat = TRUE,digits=2)) item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 (12.9,34.2] 1 19 2.32 1.25 2 2.35 1.48 0 4 4-0.09-1.34 0.29 12 2 (34.2,55.5] 1 39 2.95 2.70 2 2.58 1.48 0 11 11 1.36 1.35 0.43 13 3 (55.5,76.8] 1 31 3.32 2.60 3 3.16 2.97 0 9 9 0.43-0.92 0.47 14 4 (76.8,98.1] 1 11 3.82 2.44 3 3.67 1.48 0 9 9 0.68-0.31 0.74 o Número de quedas vs nível de força; > with(geriatra,describeby(quedas, cut(força,4), mat = TRUE,digits=2)) item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 (17.9,36] 1 5 2.80 1.30 3 2.80 1.48 1 4 3-0.26-1.96 0.58 12 2 (36,54] 1 25 2.32 2.19 2 2.10 2.97 0 7 7 0.61-0.74 0.44 13 3 (54,72] 1 50 3.30 2.55 3 2.92 1.48 0 10 10 1.10 0.25 0.36 14 4 (72,90.1] 1 20 3.35 2.60 3 3.06 1.48 0 11 11 1.10 1.45 0.58 24

Residuals vs Fitted Normal Q-Q Residuals -4-2 0 2 4 6 93 67 52 Standardized residuals -1 0 1 2 3 67 93 52 0 1 2 3 4 5 Fitted values -2-1 0 1 2 Theoretical Quantiles Scale-Location Residuals vs Leverage Standardized residuals 0.0 0.5 1.0 1.5 93 67 52 Standardized residuals -2-1 0 1 2 3 93 52 Cook's distance 42 0.5 0 1 2 3 4 5 Fitted values 0.00 0.05 0.10 0.15 Leverage Figura 5 Gráficos para os resíduos de um modelo de regressão linear múltipla ajustado aos dados de quedas de idosos. 25

Exemplo 5 Dados de 4624 apólices de seguros de automóveis que registraram sinistros no período de um ano, entre 2004 e 2005. Variáveis explicativas: Valor: Valor do veículo (x10.000 dólares); Tipo: tipo de veículo, com níveis: o BUS: ônibus; o CONVT: conversível; o COUPE; o HBACK: hathback; o HDTOP: hardtop; o MCARA: trailer motorizado; o MIBUS: mini-ônibus; o RDSTR: roadster; o SEDAN; o STNWG: station wagon; o TRUCK: caminhão; o UTE: utilitário. Idade: idade do veículo, com níveis 1 (veículos mais novos), 2, 3 e 4; Sexo: sexo do motorista, com níveis: M (masculino) e F (Feminino); Area: área de residência do motorista: A, B, C, D, E e F; Idademot: idade do motorista, com níveis: 1 (mais novos), 2, 3, 4, 5 e 6. Variável resposta: Quantia: valor (somado) dos sinistros apresentados no período (variável resposta). 26

Objetivos: Identificar fatores associados a sinistros mais caros; Estabelecer um modelo preditivo, que sirva de base para estabelecer a tabela de preços para períodos futuros. 27

Dados Dez primeiras linhas da base: > head(dados2,10) Valorcar Quantia Tipo Idade Sexo Area Idademot 15 1.66 669.5100 SEDAN 3 M B 6 17 1.51 806.6100 SEDAN 3 F F 4 18 0.76 401.8055 HBACK 3 M C 4 41 1.89 1811.7100 STNWG 3 M F 2 65 4.06 5434.4400 STNWG 2 M F 3 66 1.39 865.7900 HBACK 3 F A 4 96 2.66 1105.7700 STNWG 1 F F 5 99 0.50 200.0000 HBACK 4 F A 5 116 1.16 739.2300 STNWG 4 F B 2 125 3.56 3230.6000 MCARA 3 M F 4 28

Análise descritiva (univariada): > summary(dados2) Valorcar Quantia Tipo Idade Sexo Area Idademot Min. : 0.000 Min. : 200.0 SEDAN :1476 1: 825 F:2648 A:1085 1: 496 1st Qu.: 1.100 1st Qu.: 353.8 HBACK :1264 2:1259 M:1976 B: 965 2: 932 Median : 1.570 Median : 761.6 STNWG :1173 3:1362 C:1412 3:1113 Mean : 1.859 Mean : 2014.4 UTE : 260 4:1178 D: 496 4:1104 3rd Qu.: 2.310 3rd Qu.: 2091.4 HDTOP : 130 E: 386 5: 614 Max. :13.900 Max. :55922.1 TRUCK : 120 F: 280 6: 365 (Other): 201 > sum(dados2$quantia>15000) ### Numero de apólices que geraram mais de $15.000 em sinistros. [1] 65 29

Todas as apólices com sinistros Apólices com sinistros inferiores a $15.000 1800 1800 1600 1600 1400 1400 1200 1200 Frequência 1000 800 Frequência 1000 800 600 600 400 400 200 200 0 0 0 5 10 15 20 25 30 35 40 45 50 55 60 Valor dos sinistros (x$10.000) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Valor dos sinistros (x$10.000) Figura 6 Distribuição dos valores dos sinistros gerados pelos segurados. 30

Análise descritiva (bivariada) Valores dos sinistros vs tipo de veículo: > with(dados2,describeby(quantia, Tipo, mat = TRUE,digits=2)) item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 BUS 1 9 1484.79 1483.53 876.48 1484.79 613.99 371.82 4790.84 4419.02 1.13-0.11 494.51 12 2 CONVT 1 3 2296.27 3319.80 530.00 2296.27 440.33 233.00 6125.81 5892.81 0.38-2.33 1916.69 13 3 COUPE 1 68 2760.64 4197.29 1171.92 1819.55 1440.97 200.00 19847.74 19647.74 2.66 7.15 509.00 14 4 HBACK 1 1264 2048.37 3291.24 783.58 1313.14 865.22 200.00 47296.61 47096.61 4.52 37.81 92.57 15 5 HDTOP 1 130 2267.78 5015.92 584.16 1064.98 484.53 200.00 32814.80 32614.80 4.26 19.88 439.93 16 6 MCARA 1 14 762.42 812.92 379.97 591.53 38.81 345.00 3230.60 2885.60 2.02 3.21 217.26 17 7 MIBUS 1 43 2700.11 4529.85 1286.59 1471.73 1068.48 200.00 20545.10 20345.10 2.67 6.29 690.80 18 8 PANVN 1 62 2146.99 3552.48 714.79 1333.94 626.92 200.00 22216.09 22016.09 3.41 14.50 451.17 19 9 RDSTR 1 2 684.73 685.51 684.73 684.73 718.66 200.00 1169.46 969.46 0.00-2.75 484.73 110 10 SEDAN 1 1476 1816.82 2928.87 759.81 1144.24 829.98 200.00 29634.63 29434.63 4.09 24.18 76.24 111 11 STNWG 1 1173 2014.57 4063.93 734.19 1164.22 674.26 200.00 55922.13 55722.13 6.27 55.03 118.66 112 12 TRUCK 1 120 2662.47 4675.85 807.55 1392.42 672.78 200.00 22405.44 22205.44 2.81 7.30 426.84 113 13 UTE 1 260 2296.96 3728.77 782.51 1384.33 755.53 200.00 28012.83 27812.83 3.35 14.33 231.25 31

Valores dos sinistros vs idade do motorista: > with(dados2,describeby(quantia, Idademot, mat = TRUE,digits=2)) item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 1 1 496 2635.83 4320.54 994.66 1705.46 1178.16 200 46868.18 46668.18 4.37 29.93 194.00 12 2 2 1 932 2129.66 4106.12 760.19 1241.36 830.55 200 55922.13 55722.13 5.64 47.35 134.50 13 3 3 1 1113 1915.64 3065.13 743.77 1201.50 806.19 200 31974.77 31774.77 3.74 19.19 91.88 14 4 4 1 1104 1943.21 3503.93 750.47 1165.36 816.13 200 47296.61 47096.61 5.36 43.88 105.46 15 5 5 1 614 1728.68 2798.37 702.76 1054.16 745.40 200 22216.09 22016.09 3.68 16.95 112.93 16 6 6 1 365 1872.79 3405.27 852.32 1110.64 826.48 200 31243.67 31043.67 4.69 27.66 178.24 32

50 50 50 40 30 20 10 40 30 20 10 40 30 20 10 0 0 BUS CONVT COUPE HBACK HDTOP MCARA MIBUS PANVN RDSTR SEDAN STNWG TRUCK UTE 1 33 Valor dos sinistros x $10.000 2 3 4 F M Valor dos sinistrosx $10.000 Valor dos sinistrosx $10.000 0 Idade do motorista Sexo 50 50 50 40 30 20 10 40 30 20 10 40 30 20 10 0 0 A B C D E F 1 2 3 4 5 6 0 2 4 6 8 10 12 14 Área de residência Idade do motorista Valor dos sinistrosx $10.000 Valor dos sinistrosx $10.000 Valor dos sinistrosx $10.000 0 Valor do veículo Figura 7 Distribuição dos valores dos sinistros segundo as covariáveis (todas as apólices com sinistro).

Exemplo 6 Análise do desempenho de cinco tipos de turbinas de aviões. Foi conduzido um experimento com 10 turbinas de cada tipo Variável explicativa Tipo de turbina, com níveis I, II, III, IV e V. Variável resposta Tempo de vida da turbina, em milhões de ciclos até verificada a perda de velocidade. Objetivos Estimar parâmetros correspondentes às distribuições dos tempos de vida dos cinco tipos de turbinas; Comparar os tempos médios de vida, identificar quais turbinas são mais resistentes. 34

Dados: Turbina I II III IV V 1 3.03 3.19 3.46 5.88 6.43 2 5.53 4.26 5.22 6.74 9.97 3 5.60 4.47 5.69 6.90 10.39 4 9.30 4.53 6.54 6.98 13.55 5 9.92 4.67 9.16 7.21 14.45 6 12.51 4.69 9.40 8.14 14.72 7 12.95 5.78 10.19 8.59 16.81 8 15.21 6.79 10.71 9.80 18.39 9 16.04 9.37 12.58 12.28 20.84 10 16.84 12.75 13.41 25.46 21.51 35

Análise descritiva: Tempo até perda de velocidade (milhões de ciclos) 5 10 15 20 25 Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5 Tipo de turbina Figura 8 Distribuição dos tempos de vida segundo tipo de turbina. 36

> medias=with(turbdata,tapply(tempo,turbina,mean)); medias Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5 10.693 6.050 8.636 9.798 14.706 > variancias=with(turbdata,tapply(tempo,turbina,var)); variancias Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5 23.225512 8.497489 10.828116 33.711796 23.652316 > cvs=sqrt(variancias)/medias;cvs # Coeficientes de variação. Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5 0.4506954 0.4818257 0.3810341 0.5925889 0.3307061 37