EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA

Documentos relacionados
Exemplos Modelos de Quase-Verossimilhança

Precificação de apartamentos para o bairro Água Verde em Curitiba

Modelos Lineares Generalizados - Regressão Logística

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Disciplina de Modelos Lineares

Faturamento de Restaurantes

RESOLUÇÃO DAS QUESTÕES DE ESTATÍSTICA

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

4 Modelos Lineares Generalizados

Modelos de Regressão Linear Simples - Análise de Resíduos

Aplicação de modelos lineares generalizados na captura de atum da espécie Thunnus albacares.

A Metodologia de Box & Jenkins

1 Introdução aos Métodos Estatísticos para Geografia 1

M l u t l i t c i oli l n i e n arid i a d de

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

CONHECIMENTOS ESPECÍFICOS

Filho, não é um bicho: chama-se Estatística!

Cap 7 Modelo de Cox. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. 5 Modelo de Cox. Carvalho MS (2009) Sobrevida 1 / 22

Exemplo Regressão Binomial Dados Emparelhados

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

Modelo de regressão estável aplicado a econometria

Testes de Aderência, Homogeneidade e Independência

Estatística Descritiva

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Exemplo Falhas em Tecidos

Exemplo Número de Clientes da Loja

INTRODUÇÃO AOS MODELOS DE FRAGILIDADES APLICADOS A DADOS DE LEUCEMIA LINFOBLASTÍCA

Modelo de Variáveis discretas. Regressão com uma variável dependente Binária. Variáveis dependentes Binárias. Modelo de Probabilidade Linear

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Aula 2 Regressão e Correlação Linear

Exemplos Modelos Binomiais de Dose-Resposta

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

FATORES EXPLICATIVOS DO SALDO DA BALANÇA COMERCIAL DO BRASIL 1990 A 1997

Exemplo Placas Dentárias

Estatística Descritiva

Estimação e Testes de Hipóteses

CARACTERÍSTICAS ESTÁTICAS DE SISTEMAS DE MEDIÇÃO

Métodos Estatísticos Avançados em Epidemiologia

Prova de Estatística

Súmario APRESENTAÇÃO DA COLEÇÃO...13

Econometria Semestre

Resultados. Grupo SK/aids

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Estatística 1. Resumo Teórico

Análise espacial da incidência de Dengue no município de São Paulo

Estatística Descritiva (I)

CE225 Modelos Lineares Generalizados

Relatório de análise estatística Bairro : Dois Irmãos Recife/PE

= < 5. O segundo menor valor esperado estimado corresponde à célula (3,3), com Ê33 = 29 30

Modelos de Regressão Múltipla - Parte VIII

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Econometria Aplicada com uso do R

Teste de % de defeituosos para 1 amostra

Análise fatorial em R

Exemplo Cupons com Desconto

Homocedasticidade? Exemplo: consumo vs peso de automóveis

Gabarito da 1 a Lista de Exercícios de Econometria II

Coleta e Modelagem dos Dados de Entrada

O que é população? O que é amostra? Curso de Bacharelado em Educação Física e Saúde

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

Teste F-parcial 1 / 16

Métodos de pesquisa quantitativa e qualitativa para Ciência da Computação

AULA 07 Inferência a Partir de Duas Amostras

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

EXPERIMENTO FATORIAL BLOCADO PARA DETERMINAÇÃO DE DIFERENÇAS ENTRE TEMPO DE QUEIMA DE VELAS DE PARAFINA

4 Modelos de Regressão Dinâmica

Exercícios Selecionados de Econometria para Concursos Públicos

CONTEÚDOS PROGRAMÁTICOS

Prof. Dr. Engenharia Ambiental, UNESP

AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS PARA PREVISÃO DA TEMPERATURA MÍNIMA DO AR PARA LAVRAS/MG EM 2011

Métodos Quantitativos Aplicados

ÍNDICE Janelas Menus Barras de ferramentas Barra de estado Caixas de diálogo

ANOVA - parte I Conceitos Básicos

Exemplo Cupons com Desconto

16/6/2014. Teste Qui-quadrado de independência

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

AULAS 25 E 26 Heteroscedasticidade

Regressão múltipla: problemas adicionais. Unidades de medida. Unidades de medida. Unidades de medida salário em dólares (*1000) Unidades de medida

Análise de desempenho acadêmico nas disciplinas Probabilidade e Estatística, Estatística Aplicada e Bioestatística.

4 APLICAÇÕES À SÉRIE TEMPORAL DE CONSUMO RESIDENCIAL MENSAL DE ENERGIA ELÉTRICA

4 Análise dos dados Perfil dos participantes

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

Modelos Lineares Generalizados - Introdução

Transcrição:

Universidade Federal do Paraná Departamento de Estatística EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA CE225 - Modelos Lineares Generalizados Jhenifer Caetano Veloso - GRR20137558 Rogério de Jesus H. Filho - GRR20137589 15 de agosto de 2017

Resumo Leucemia é um tipo de câncer que atinge as células do sangue, conhecida também como uma doença dos glóbulos brancos. Para verificar a eficiência ou não de um tratamento em pacientes com leucemia, foi realizado um estudo observacional envolvendo seis variáveis explicativas, dado que o tratamento pode assumir duas respostas, a análise estatística se deu através de um modelo linear generalizado, mais especificamente, uma distribuição Binomial com função de ligação logito. Adicionalmente foi realizado uma seleção de variáveis, pelo Critério de Informação de Akaike (AIC), a fim de verificar se o melhor modelo é retirando alguma variável explicativa. Os resultados mostraram que o melhor modelo é aquele que considera três variáveis e uma interação e ainda, verificou-se a qualidade do ajuste final, o qual explica bem as variávies do modelo. Por conseguinte, foram apresentadas as estimativas das variáveis que contribuem para que o tratamento seja satisfatório ou não. Palavras-chave: leucemia; distribuição Binomial; modelo linar generalizado 1

Sumário 1 Introdução 3 2 Material e Métodos 3 2.1 Material........................................ 3 2.2 Métodos........................................ 4 3 Modelagem Estatística 4 3.1 Análise Descritiva e Exploratória.......................... 4 3.2 Seleção de Variáveis.................................. 6 3.3 Modelo Proposto................................... 6 3.4 Análise de Diagnóstico................................ 7 3.5 Resultados....................................... 8 4 Conclusão 9 2

1 Introdução Leucemia é um tipo de câncer que atinge as células do sangue, conhecida também como uma doença dos glóbulos brancos, mas em alguns casos a leucemia pode atingir outras células do corpo humano. Existem quatro tipos, leucemia mielóide aguda e crônica, e linfóide aguda e crônica. É uma doença que tem origem na medula óssea passando para o sangue, podendo atingir fígado, baço, gânglios linfáticos, testículos, sistema nervoso central e diversos outros sistemas. Os principais sintomas são anemia, infecções e hemorragias constantes. De acordo com o Instuto Nacional de Câncer José Alencar Gomes da Silva (INCA), para o ano de 2016 no Brasil, estimam-se 5.540 casos novos da doença para homens e 4.530 para mulheres. Existem diversos métodos de tratamento para a doença, o qual depende do grau de severidade, entre eles estão a quimioterapia, imunoterapia, transplante de medula ou radioterapia. Devido a alta mortalidade para esse diagnóstico, é de vital importância o estudo de aprimoramento de tratamentos ou mesmo novos tipos de tratamento. Neste contexto, este trabalho foi realizado com o objetivo de verificar a eficácia de um tratamento para um tipo de leucemia aguda. 2 Material e Métodos 2.1 Material O estudo foi realizado com 51 pacientes adultos, previamente diagnosticados com um tipo agudo de leucemia. Para cada paciente as variáveis observadas foram: idade: idade do paciente na época do diagnóstico (em anos) mdd: mancha diferencial da doença (em %) im: infiltração na medula (em %) cl: células com leucemia na medula (em %) md: malignidade da doença (x10 3 ) tmax: temperatura máxima antes do tratamento (x10 F) trat: tratamento (1: satisfatório, 0: não satisfatório) tsobre: tempo de sobrevivência após o diagnóstico (em meses) sit: situação do paciente (1: sobrevivente, 0: não sobrevivente). A tabela 1 apresenta as seis primeiras observações do conjunto de dados. Tabela 1: Conjunto de dados idade mdd im cl md tmax trat tsobre sit 1 20 78 39 7 0.60 990 1 18 0 2 25 64 61 16 35.00 1030 1 31 1 3 26 61 55 12 7.50 982 1 31 0 4 26 64 64 16 21.00 1000 1 31 0 5 27 95 95 6 7.50 980 1 36 0 6 27 80 64 8 0.60 1010 0 1 0 Pela descrição das variáveis, percebe-se que as variáveis trat, tsobre e sit são as denominadas variáveis dependentes, porém como o objetivo do estudo é avaliar a eficiência do tratamento, as variáveis tsobre e sit serão desconsideradas da análise. 3

2.2 Métodos Dada a natureza binária da variável resposta trat (0 ou 1), utilizou-se os conceitos de modelos lineares generalizados. Em regressão, para este tipo de dados a distribuição Binomial é a principal alternativa como componente aleatório do modelo, o componente sistemático é dado pela combinação linear das variáveis explicativas e para a função de ligação foi considerada a função logit. A definição do modelo com as características citadas é descrito abaixo: Y i x i Binomial(m i, π i ) ( ) πi g(π i ) = ln = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip 1 π i Em que Y é a variável resposta, x i1, x i2,..., x in as i-ésimas realizações das respectivas variáveis explicativas ( X) 1, X 2,..., X n, m i = 1 i (resultando em um conjunto de variáveis π de Bernoulli) e ln i 1 π i é a função de ligação na escala do preditor. A seleção de variáveis foi realizada através do algoritmo stepwise considerando como critério de seleção o AIC (Critério de Informação de Akaike), cujo a fórmula é dada por: AIC model = 2log(L) + 2p Em que L é a verossimilhança e p o número de parâmetros do modelo. Este algoritmo parte de um modelo especificado e realiza sucessivas atualizações na inclusão ou exclusão de variáveis pertencentes ao modelo até que se atinja o menor AIC possível. Após ajustado o modelo, avaliou-se a qualidade do ajuste através da estatística de Hosmer- Lemeshow, que avalia o modelo ajustado comparando as frequências observadas e as esperadas. O teste associa os dados as suas probabilidades estimadas da mais baixa à mais alta, então faz um teste qui quadrado para determinar se as frequências observadas estão próximas das frequências esperadas. 3 Modelagem Estatística 3.1 Análise Descritiva e Exploratória Para observar o comportamento e particularidades das variáveis em estudo, nesta seção serão dicutidos algumas medidas e gráficos descritivos. Como primeira visualização será exibido uma tabela com as medidas resumo das variáveis em estudo. Tabela 2: Medidas resumo idade mdd im cl md tmax trat Min. 20.00 26.00 8.00 1.00 0.00 980.00 0.00 1st Qu. 35.00 53.50 37.50 6.00 1.00 986.00 0.00 Median 50.00 69.00 61.00 9.00 2.60 990.00 0.00 Mean 49.86 65.94 58.20 9.80 9.37 996.14 0.47 3rd Qu. 61.00 81.00 72.50 13.50 9.95 1005.00 1.00 Max. 80.00 97.00 95.00 20.00 115.00 1038.00 1.00 De acordo com a tabela 2 temos indícios de assimetria na disposição dos valores da variável malignidade da doença (indo de 0 até 115). Observações muito dispersas nas variáveis explicativas podem acarretar em pontos influentes no estudo. 4

O interesse neste caso foi avaliar a variável tratamento em função das demais por meio de um modelo linear generalizado, portanto, uma análise exploratória visando avaliar preliminarmente se há relação entre essas variáveis é imprescindível. Na figura 1 são exibidos gráficos que ilustram a relação de variáveis combinadas duas a duas separadas pelo tratamento. 20 15 cl 15 20 10 120 100 80 60 md 0 20 40 60 60 80100 60 40 20 0 1040 1030 1010 1030 1020 1010tmax 980 1000 1010 1000 990 980 80 60 80 5 10 5 Tratamento 0 1 60 im 40 20 40 20 100 80 80 10 mdd 40 60 60 40 80 70 60 50 50 60 70 80 idade 20 30 40 50 50 40 30 20 Figura 1: Representação Gráfica das Relações entre as Variáveis Pela figura 1, percebe-se que as categorias do tratamento satisfatório (cor rosa) e não satisfatório (cor azul) não estão se sobreponto na maioria das variáveis, mas ainda assim não a uma clara relação entre elas. Dentre todos os gráficos, o único que aparentemente apresenta uma tendênca é a porcentagem de mancha diferencial da doença e a porcentagem de infiltração na medula, quando maior a mancha maior será a infiltração. A fim de quantificar a relação linear entre as variáveis, para que não tenhamos problemas de colinearidade, vamos explorar a matriz de correlação entre elas. Tabela 3: Matriz de Correlação idade mdd im cl md tmax trat idade 1.00-0.20-0.14-0.12 0.05 0.08-0.35 mdd -0.20 1.00 0.85 0.10 0.33-0.03 0.22 im -0.14 0.85 1.00 0.14 0.34-0.01 0.26 cl -0.12 0.10 0.14 1.00 0.38 0.07 0.49 md 0.05 0.33 0.34 0.38 1.00 0.36 0.19 tmax 0.08-0.03-0.01 0.07 0.36 1.00-0.26 trat -0.35 0.22 0.26 0.49 0.19-0.26 1.00 Na tabela 3, todos os elementos da diagonal principal equivalem a 1, pois a correlação de 5

uma variável com ela mesma é perfeita. O valor da correlação varia de -1 a 1, quanto mais próximo de 1, mais forte é a correlação positiva e quanto mais próximo de -1, mais forte é a correlação negativa. O maior valor foi de 0.85, indicando uma forte correlação positiva entre porcentagem de infiltração na medula e mancha diferencial da doença. Mas sem o ajuste de um modelo linear, não é recomendável realizar inferências a partir desses dados. 3.2 Seleção de Variáveis Um ponto importante no processo de modelagem é a seleção de variáveis para compor o modelo que melhor explica a variável resposta, isto é, dentre as seis variáveis explicativas disponíveis, devemos encontrar um subconjunto de variáveis importantes para o modelo. Esta seleção de variáveis foi realizada conforme o algoritmo stepwise, que tem como critério de seleção o AIC descrito na seção 2 e considerou-se a direção forward (passo a frente, iniciando com um modelo nulo e inserindo variáveis, uma a uma, até que se encontre o menor AIC tendo como limite um modelo completo especificado). Foi considerado como modelo completo o modelo aditivo com todos os efeitos principais e todas as interações simples, somando ao todo 22 parâmetros. O algoritmo resultou, com AIC = 49.46, no conjunto de variáveis células com leucemia, temperatura máxima, idade, infiltração na medula, e as interações entre temperatura máxima e infiltração na medula, e idade e infiltração. Com isso, foi considerado somente as variáveis indicadas pelo algoritmo para especificação do modelo. 3.3 Modelo Proposto O modelo ajustado considerando somente as variáveis selecionadas na subseção anterior fica dado por: T rat i x i Binomial(1, π i ) ( ) ˆπi g(π i ) = ln = 1 ˆπ β 0 + β 1 cl i + β 2 tmax i + β 3 idade i + β 4 im i + β 5 tmax i im i + β 6 idade i im i i A tabela 4 complementa o modelo com os valores estimados dos parâmetros e seus respectivos erros padrão: Tabela 4: Resumo das Estimativas para o Modelo Ajustado Efeito Parâmetro Estimativa E. Erro Padrão Estatística Z Pr(> z ) constante β 0-164 129.40-1.268 0.2050 cl β 1 0.6156 0.2036 3.024 0.0025 tmax β 2 0.1671 0.1311 1.274 0.2026 idade β 3-0.2109 0.1150-1.834 0.0666 im β 4 4.516 2.255 2.003 0.0452 tmax:im β 5-0.00462 0.00230-2.008 0.0446 idade:im β 6 0.00238 0.00172 1.382 0.1671 Pela tabela 4, nota-se que mesmo após utilizado o algoritmo de seleção de variáveis, tem-se, ao nível de significância de 5%, os efeitos das variáveis tmax, idade e interação entre idade e im não significativos, então ajustou-se um novo modelo sem essas variáveis. O novo modelo fica dado por: ( ) ˆπi g(π i ) = ln = 1 ˆπ β 0 + β 1 cl i + β 2 tmax i + β 3 im i + β 4 im i tmax i i 6

E novamente, a tabela 5 apresenta o resumo do novo modelo especificado: Tabela 5: Resumo das Estimativas para o Modelo Ajustado Efeito Parâmetro Estimativa E. Erro Padrão Estatística Z Pr(> z ) constante β 0-109.3 107.5-1.017 0.30907 cl β 1 0.4491 0.1427 3.148 0.00164 tmax β 2 0.1039 0.1073 0.968 0.33295 im β 3 3.038 1.823 1.667 0.09559 tmax:im β 4-0.00303 0.001833-1.653 0.09827 Como estudo envolve um doença grave, mais especificamente um câncer, não utilizou-se o nível de significância de 5% para dizer quais efeitos são significativos ou não, por esta razão, considerou-se significativos os efeitos apresentados na tabela 5. Foi ainda considerado o efeito da variável tmax mesmo que não significativo, porque sua interação com a variável im é significativa. 3.4 Análise de Diagnóstico Antes de validar qualquer análise previamente feita com o modelo, a análise de diagnóstico verificará a adequação do modelo aos dados, verifica se todos os pressupostos são atedidos, bem como observar informações influentes. Abaixo, a verificação dos pressupostos: Residuals vs Fitted Scale Location Cook's distance Residuals 2 1 0 1 2 1 36 48 Std. deviance resid. 0.0 0.5 1.0 1.5 1 48 36 Cook's distance 0.00 0.05 0.10 0.15 0.20 21 32 48 6 4 2 0 2 4 6 Predicted values 6 4 2 0 2 4 6 Predicted values 0 10 20 30 40 50 Obs. number Figura 2: Análise de Diagnóstico do Modelo Proposto - Pressupostos De acordo com a figura 2 não observa-se fuga aos pressupostos. No primeiro gráfico, há uma forma não linear devido ao fato da variável resposta ser dicotômica, apresentando apenas valores 0 ou 1. No segundo gráfico, não se tem evidência de tendência e novamente percebe-se uma disposição aleatória dos pontos, não caracterizando uma relação média variância. E no terceiro, tem-se a distância de Cook, observa-se que as observações 32 e 48 se destavam, porém elas não evidenciam um ponto de alavancagem. Como complemento, a figura 3 apresenta o gráfico quantil-quantil com envelope simulado. 7

Gráfico Normal de Probabilidades Resíduos 2 1 0 1 2 2 1 0 1 2 Percentil da N(0,1) Figura 3: qqplot com Envelope Simulado Na figura 3, é apresentado o gráfico dos resíduos e envelopes simulados para a banda de 95% de confiança, com ele é possível verificar possíveis problemas nas especificações do modelo, o que não ocorreu nesse caso, todos os resíduos estão dentro dos intervalos simulados. E por fim, para complementar a análise de diagnóstico, verificamos se há medidas de influência através dos 3 gráficos abaixo: Studentized residuals 2 1 0 1 2 1 36 48 hat values 0.0 0.1 0.2 0.3 0.4 21 32 40 0 10 20 30 40 50 Index Figura 4: Medidas de Influência Nos gráficos da figura 4 são apresentadas duas medidas de influência: resíduos studentizados e valores de alavancagem h. Ambos indicam que valores com grandes magnitudes, em relação aos demais, podem se apresentar como observações influentes. Foram ajustados modelos sem as observações identificadas, porém as estimativas e componentes do modelo não apresentaram diferenças significativas, então as observações 32, 40 e 48 continuaram presentes na análise. 3.5 Resultados Com o modelo especificado e verificado o prossupostos, é possível avaliar a qualidade deste ajuste. Para isso foi utilizado a estatística de Hosmer e Lemeshow mencionada na seção 2, a qual é dada por: 8

Ĉ = g k=1 ( ok n k π k) 2 n k π k(1 π k ) Considerando a hitpótese nula de que o modelo explica bem os dados, o teste resultou em Ĉ = 9.458237 com um p valor = 0.305125, ou seja, o modelo está bem ajustado. 4 Conclusão Conclui-se que os percentuais de células infectadas com leucemia e de infiltração na medula óssea, a temperatura máxima do paciente antes do tratamento, bem como a interação entre a infiltração e a temperatura contribuem para que o tratamento seja satisfatório. Como a estimativa da interação apresenta valor negativo, ela incorre uma contribuição menor do que as outras. 9