ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR

Documentos relacionados
Utilização de estratificação e modelo de regressão logística na análise de dados de estudos caso-controle

Disciplina de Modelos Lineares Professora Ariane Ferreira

Interpolação polinomial: Diferenças divididas de Newton

Medidas de efeito e associação em epidemiologia

REGRESSÃO E CORRELAÇÃO

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

ESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

5 Avaliação dos estimadores propostos

Tópico 3. Estudo de Erros em Medidas

Introdução ao modelo de Regressão Linear

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Técnicas Multivariadas em Saúde

Análise de Aderência e de Associação

PROGRAMA DE DISCIPLINA MÉTODOS ESTATÍSTICOS EM EPIDEMIOLOGIA 2 o. semestre de 2010

Cruzamento de Dados. Lorí Viali, Dr. DESTAT/FAMAT/PUCRS

TRATAMENTO ESTATÍSTICO DE DADOS EXPERIMENTAIS

ANÁLISE MULTIVARIADA DE FATORES DE RISCO PARA O BAIXO PESO AO NASCER EM NASCIDOS VIVOS DO MUNICÍPIO DE SÃO PAULO, SP (BRASIL)

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2017

SCC0173 Mineração de Dados Biológicos

Modelos log-lineares

Resolução de sistemas de equações lineares: Método de eliminação de Gauss - estratégias de pivotamento

Utilização de estratificação e modelo de regressão logística na análise de dados de estudos de caso-controle. Fabiana Grifante

O Kappa está morto? Uma discussão sobre índices baseados em matrizes de confusão. Camilo Daleles Rennó

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2018

6. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Dimensionamento de amostras para estudos com variável resposta ordinal

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Análise de Dados Categóricos Modelos log-lineares

Mais Informações sobre Itens do Relatório

Interpolação polinomial: Diferenças divididas de Newton

Ralph S. Silva

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Medidas de Associação-Efeito. Teste de significância

PROGRAMA DE DISCIPLINA MÉTODOS ESTATÍSTICOS EM EPIDEMIOLOGIA

Modelos de regressão aplicados à epidemiologia

Interpolação polinomial: Polinômio de Lagrange

RISCO. em epidemiologia

4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Técnicas computacionais em probabilidade e estatística II

Meta-análise: comparação de proporções para o caso de duas amostras independentes

x exp( t 2 )dt f(x) =

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

REGRAS ELEITORAIS, COMPETIÇÃO POLÍTICA E POLÍTICA FISCAL: EVIDÊNCIA DOS MUNICÍPIOS BRASILEIROS

AULA 07 Inferência a Partir de Duas Amostras

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

Estimadores, pontual e intervalar, para dados com censuras intervalar

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Predição do preço médio anual do frango por intermédio de regressão linear

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Testes de qui-quadrado

Exemplos Equações de Estimação Generalizadas

Consultoria para realizar pesquisa para estimar a prevalência de nascimentos pré-termo no Brasil e explorar possíveis causas

Modelo de regressão estável aplicado a econometria

3. Otimização sob Incerteza

Ementa Cursos de Verão do Núcleo de Epidemiologia e Bioestatística (NEB) 2016

UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE FILOSOFIA E CIÊNCIAS HUMANAS DEPARTAMENTO DE CIÊNCIA POLÍTICA CURSO DE GESTÃO PÚBLICA

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2014

Prof. Lorí Viali, Dr.

Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística

Medidas de associação entre duas variáveis qualitativas

Método de Quadrados Mínimos: Caso discreto

Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin Estatística Básica 7ª Edição

INE Fundamentos de Matemática Discreta para a Computação

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

ALTURA MATERNA E PESO DA CRIANÇA AO NASCER

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

SOBRE A FORÇA DE MORTALIDADE NA CONSTRUÇÃO DE TÁBUAS DE SOBREVIVÊNCIA * RSPSP-139

Ralph S. Silva

USO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Regressão Logís+ca na iden+ficação de fatores de risco em recém nascidos prematuros

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

André Vignatti DINF- UFPR

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

Introdução à Ciência da Computação II

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Exemplo Regressão Binomial Dados Emparelhados

Avaliação genética. Os pais não transmitem o seu genótipo aos descendentes e sim uma amostra aleatória de genes.

Política de Gerenciamento de Risco de Mercado

Aplicação da análise de regressão na contabilidade do custo de produção do milho

Estatística Aplicada

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Seleção de Variáveis e Construindo o Modelo

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

01 Análise de Algoritmos (parte 2) SCC201/501 - Introdução à Ciência de Computação II

Intervalos de Confiança

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

Resolução de sistemas de equações lineares: Método de eliminação de Gauss - estratégias de pivotamento

Matriz de Variância e Covariância e o Teorema de Gauss-Markov

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Aprendizagem por treinamento de redes de aproximação

Prof. Lorí Viali, Dr.

Transcrição:

ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR José Maria Pacheco de Souza* Maria Helena D'Aquino Benicio** SOUZA, J.M.P. de & BENÍCIO, M.H.D'A. Análise multivariada: um exemplo usando modelo log-linear. Rev. Saúde públ., S. Paulo, 19:63-9, 1985. RESUMO: Apresenta-se de forma resumida análise multivariada de dados categóricos, usando modelo log-linear para a situação de uma tabela de contingência x x. UNITERMOS: Análise multivariada. Modelo log-linear. A técnica de análise multivariada de dados categóricos, mediante modelos loglinear ou modelo logito, é bastante útil em trabalhos na área de Saúde Pública e Epidemiologia, onde é comum se ter tabelas de contingência complexas, com grande número de variáveis. O objetivo do presente trabalho é apresentar de forma resumida tal técnica, para a situação particular de três variáveis, cada uma com duas categorias mutuamente exclusivas, ou seja, para a situação de uma tabela de contingência xx. Worcester 5 apresenta trabalho em linha semelhante, analisando também a situação para tabela x. Vitaliano 6 analisa situação mais complexa em um estudo caso-controle. O exemplo numérico consta de dados referentes ao trabalho de Benício l, um programa de computador que executa os algoritmos necessários à análise - ECTA -, escrito por Leo Goodman, encontra-se à disposição no Centro de Computação Eletrônica da Universidade de S. Paulo. Sobre o assunto há vários textos, de vários níveis de complexidade matemática,3,4. INTRODUÇÃO MODELO LOG-LINEAR Seja a distribuição teórica de freqüências da Tabela l, onde F ijk é a freqüência teórica dos níveis i, j, k, respectivamente das variáveis l, e 3, onde i, j, k variam de l a. F 11 é o número esperado teórico de indivíduos com a característica l da variável l, com a característica l da variável e com a característica da variável 3. Tomando-se logaritmo natural 1n (base e =,7188...), pode-se demonstrar,3 que 1n F ijk = B + B 1 (i) + B (j) + B 3 (k) + B 1 (ij) + B 13 (ik) + B 3 (kj) + B 13 (ijk) onde os B's são parâmetros que representam "efeitos", a exemplo da análise de variância; * Do Departamento de Epidemiologia da Faculdade de Saúde Pública da Universidade de São Paulo Av. Dr. Arnaldo, 715 0155 São Paulo, SP Brasil. ** Do Departamento de Nutrição da Faculdade de Saúde Pública da Universidade de São Paulo Av. Dr. Arnaldo, 715 0155 São Paulo, SP Brasil.

Note-se que B é a média aritmética dos logarítmos naturais das freqüências teóricas; B 1 (1) mede o desvio da média aritmética dos logarítmos das freqüências teóricas da categoria l da variável l em relação à média geral B, ou seja, mede o "efeito" l da variável 1; analogamente tem-se B 1 (), B (1), B (), etc., sendo B 1 (1) + B 1 () = 0; B (1) + B () = 0; B 3 (l) + B 3 () = 0, etc. Os parâmetros com subscrito duplo e triplo são os mais importantes para a análise, sendo aqueles que medem as possíveis associações (interações) entre variáveis. Assim, B 1 (11) é o parâmetro que indica se as categorias l da variável l e l da variável estão associadas; se B 1 (11) = 0 não há associação; se B 1 (11) < O tem-se associação negativa; se B 1 (11) > O tem-se associação positiva. As freqüências F e os parâmetros B são desconhecidos. A partir de modelos e das freqüências observadas f ijk, obtémse estimativas das freqüências F ijk e dos B's, denotados, respectivamente, por E ijk e b. AJUSTE E TESTE DE MODELO: TESTE DE B Considera-se modelo adequado para descrever a estrutura de um conjunto de dados [fijk] aquele que contém o menor número possível de parâmetros e apresenta um bom ajuste. A estatística tribuição assintótica X com g graus de liberdade, onde g é o número de parâmetros eliminados; o ajuste é bom quando for menor do que g (crítico) para um nível de significância desejado. A decisão sobre o modelo final adequado pode ser tomada seguindo um processo de eliminação de parâmetros um a um, a partir do modelo mais completo com todos os parâmetros, chamado modelo saturado. A cada passo é calculada a estatística X ; em dois passos imediatamente sucessivos, onde no posterior um parâmetro foi retirado do modelo, calculam-se as estatísticas X com

g-1 e g graus de liberdade. A diferença entre elas tem distribuição assintótica X com l grau de liberdade e dá indicação sobre a manutenção ou não do parâmetro em questão no modelo. Se g 1 = g-1 for maior do que o i para um nível de significância desejado, o parâmetro é retido. A seqüência de testes se encerra quando todos os parâmetros remanescentes têm indicações para não serem retirados. Se os parâmetros B 1, B 13, B 3 e B 13 puderem ser eliminados restando o modelo 1n F ijk = B + B 1 (i) + B (j) + B 3 (k), tem-se a situação de completa independência entre as três variáveis. EXEMPLO DE AJUSTE; EXAME DAS ASSOCIAÇÕES A Tabela apresenta dados sobre gestantes quanto ao tabagismo (variável 3), sobre escolaridade da gestante (variável ) e o peso do seu recém-nascido (variável 1). Cada uma das variáveis tem duas categorias mutuamente exclusivas: não fuma (1), fuma (); escolaridade alta (1), baixa (); baixo peso: não (1), sim (). O modelo log-linear completo, saturado, é o modelo 0. Modelo 0: l n F ijk = B + B 1 (i) + B (j) + B 3 (k) + B 1 (ij) + B 13 (ik) + B 3 (jk) + B 13 (ijk); o para este modelo não é definido, pois o número de parâmetros é igual ao número de freqüências observadas. Há interesse em verificar qual dos parâmetros B 13, B 1, B 13, B 3 deve permanecer. O primeiro passo é ajustar um modelo em que B 13 (ijk) é eliminado; é o modelo 13: 1n F ijk = B + B 1 (i) + B (j) + B 3 (k) + B 1 (ij) + B 13 (ij) + B 3 (jk). Calculado o para o ajuste deste modelo, toma-se a decisão sobre a eliminação ou não de B 13 (ijk). A Tabela 3 mostra as freqüências esperadas para este modelo; 1 = 0,509 é um indicador de um bom ajuste.

O modelo seguinte a ser ajustado é o modelo 13, 3, aquele em que foram retirados os parâmetros B 13 e B 3, permitindo verificar se o parâmetro B 3 deve ou não ser retirado. A Tabela 4 mostra as freqüências esperadas para este modelo; = 8,38 indica que o ajuste não é bom, ou seja, B 3 deve permanecer. O teste de b 3 pode ser feito mediante 8,38-0,509 = 7,819 que tem distribuição aproximada com l grau de liberdade; o valor observado sugere que B 3 é diferente de zero e, portanto, deve ser mantido. A retirada ou não do parâmetro B 1 é decidida a partir do modelo 13, 1. A Tabela 5 mostra as freqüências esperadas; = 15,956 indica que o ajuste não é bom, ou seja, B 1 deve ser mantido. O teste de b 1 mediante a diferença de x tem o seguinte resultado: 15.956-0,509 = 15,447. Finalmente procura-se ajustar o modelo 13, 13 para verificar se o parâmetro B 13 pode ser retirado. A Tabela 6 mostra as freqüências esperadas sob este modelo; = 46,394 indica que o parâmetro deve permanecer. O teste de b 13 é 46,394-0,509 = 45,885.

Portanto, o modelo final que permite um bom ajuste é o modelo 13. As estimativas b 1, b 13 e b 3 são feitas usando os E íjk da Tabela 3 e são apresentadas no seu rodapé. Tem-se as seguintes interpretações: 1) Quer para mães fumantes como para não-fumantes, há associação positiva entre baixa escolaridade da mãe e baixo peso ao nascer do filho parâmetro B 1 (11). ) Qualquer que seja a escolaridade da mãe, há associação positiva entre a mãe fumar e baixo peso ao nascer parâmetro B 13 (11). 3) Há associação negativa entre escolaridade alta da mãe e ela não fumar, ou associação positiva entre escolaridade alta e fumar parâmetro B 3 (11). 4) Não há interação simultânea das três variáveis parâmetro B 13 (111). RISCO RELATIVO; RAZÃO DOS PRODUTOS CRUZADOS Seja a variável l considerada "resposta" e a distribuição das freqüências nas duas categorias desta variável resposta dependente das categorias das outras variáveis chamadas "fatores". A categoria da variável l (nascimento de uma criança com baixo peso) pode ser considerada como representando um evento desfavorável; assim a relação E jk (E ijk + E jk ), estimadas por f jk (f ijk + f jk ), mede o "risco" de uma mãe com a combinação de características jk quanto às variáveis e 3 vir a ter um evento desfavorável, qual seja, ter um recém-nascido de baixo peso. É possível, e muitas vezes desejável, comparar riscos associados a diferentes combinações de categorias dos fatores. Por exemplo, no caso específico que está sendo apresentado, uma comparação seria entre riscos de baixo peso de recémnascidos de mães que têm baixa escolaridade com mães que têm alta escolaridade, entre as não-fumantes. Usando os dados da Tabela, tem-se [ f 1 (f 11 + f 1 )] [f 11 (f 111 + f )] = 1,36 O valor 1,36 é o risco relativo (estimado) e diz que o risco de uma mulher não-fumante de baixa escolaridade ter um recém-nascido de baixo peso é 1,36 maior do que o risco de uma mulher não-fumante de alta escolaridade. Uma boa aproximação de risco relativo é a razão dos produtos cruzados = RPC, onde RPC = (E jk x E ij'k ) (E 1jk E j'k ) Usando logarítimo: Para a situação da tabela xx na configuração aqui apresentada, podese mostrar que, para as variáveis resposta (1) e fator (), 1n RPC(1) = 4 B 1 (11), e para as variáveis resposta (1) e fator (3), 1n RPC(13) = 4 B 13 (11), desde que B 13 = 0. Vê-se que RPC até o momento foi avaliado relacionando o risco de categoria, "mais favorável" em relação à "menos favorável", da variável, dentro de cada uma das categorias da variável 3, assim como relacionando o risco da categoria "mais favorável" em relação à "menos favorável", da variável 3, dentro de cada uma das categorias da variável. Pode-se também avaliar qual o risco relativo quando o indivíduo pertence simultaneamente às categorias "menos favoráveis" das variáveis e 3, em comparação com indivíduo que pertence simultaneamente às respectivas categorias "mais favoráveis". No exemplo, é o risco relativo de ter recém-nascido de baixo peso entre mães de baixa escolaridade

que fumam e mães de alta escolaridade que não fumam. Em geral, existe este interesse, de comparar riscos de combinação de fatores desfavoráveis em relação a uma categoria basal, que é aquele em que as categorias dos fatores são as mais favoráveis. Para esta situação, temse 1nRPC = 4[(B 1 (11) + B 13 (11)] MODELO LOGITO; OBTENÇÃO DA RAZÃO DOS PRODUTOS CRUZADOS É possível ajustar-se um modelo logito a um conjunto de dados [fijk]. Existe equivalência de resultados entre modelo log-linear e modelo logito e igualdade de resultados quanto à obtenção de estimativas de razão de produtos cruzados, quando o modelo log-linear inclui todos os B's correspondentes a efeitos principais e aqueles correspondentes a todas as combinações possíveis de fatores, mais os B que contenham combinações da variável resposta com variável fator estatisticamente significante. No caso de três variáveis com duas categorias cada, os modelos log-lineares de interesse que seriam equivalentes a modelos logitos são os modelos 1n F ijk = B + B 1 (i) + B (j) + B 3 (k) + B 3 (jk) + B 1 (ij) 1n F ijk = B + B 1 (i) + B (j) + B 3 (k) + B 3 (jk) + B 13 (ik) 1n F íjk = B + B 1 (i) + B (j) + B 3 (k) + B 3 ((jk) + B 1 (ij) + B 13 (ik) Ajustado um modelo log-linear, as razões dos produtos cruzados (estimativa dos riscos relativos) podem ser obtidas diretamente dos E ikj. Assim, usando a Tabela 3, tem-se: Risco relativo entre escolaridade alta e baixa = (10,6.713,6) (79,4 4.907,4) = (161,4 x 1.5,4) (.01,6 68,6) = e 4b 1 (11) = 1,47 Risco relativo entre fumantes e não-fumantes = (.713,6 68,6) (79,4 1,5,4) = (4.907,4 161,4) (10,6.01,6) = e 4b 13 (11) = 1,87 Risco relativo entre escolaridade baixa + fumantes e escolaridade alta + nãofumantes = (.713,6 161,4) (.01,6 79,4) = e 4 (11) [b 1 + b (11) 13 ]=,74 onde escolaridade alta + não-fumantes é a categoria basal. Uma apresentação de resultados que pode facilitar a visão geral de relações é sob a forma da Tabela 7, onde se colocam as possíveis combinações de categorias das variáveis, a categoria basal e os respectivos riscos relativos. É subentendido que o risco relativo de combinações de categorias de variáveis é calculado em relação à categoria basal e que nas categorias que aparecem individualmente o risco é calculado em relação à categoria complementar. Costuma-se chamar tais categorias de "fatores de risco", com exceção da basal. A apresentação exemplificada na Tabela 7 é apropriada quando não há interação entre as três variáveis. Se houvesse interação (B 13 0), os riscos relativos de cada fator de risco seriam diferentes para cada categoria da outra variável. AGRADECIMENTO A um dos relatores pelas valiosas sugestões.

SOUZA, J.M.P. de & BENÍCIO, M.H.D'A. [Multivariate analysis an example of the use of a log-linear model]. Rev. Saúde públ., S. Paulo, 19:63-9, 1985. ABSTRACT: A multivariate analysis of categorical data using a log-linear model for a x x contingency table is presented. UNITERMS: Multivariate analysis. REFERÊNCIAS BIBLIOGRÁFICAS 1. BENICIO, M.H.D'A. Fatores de risco de baixo peso ao nascer em recém-nascidos vivos: município de São Paulo, 1978. São Paulo, 1983. [Tese de Doutoramento Faculdade de Medicina da USP].. EVERITT, B.S. The analysis of contingency tables. New York, John Wiley & Sons, 1977. 3. BISHOP, Y.M.M.; FIENBERG, S.E. & HOLLAND, P.W. Discrete multivariate analysis: theory and practice. Cambridge, Mass., M.I.T. Press, 1975. 4. UPTON, G.J.G. The analysis of cross: tabulated data. New York, John Wiley & Sons, 1978. 5. WORCESTER, J. The relative odds in the 3 contingency table. Amer. J. Epidem., 93: 145-9, 1971. 6. VITALIANO, P.P. The use of logistic regression for modeling risk factors: with applications to non-melanoma skin cancer. Amer. J. Epidem., 108: 40-14, 1978. Recebido para publicação em 7/1/1984 Aprovado para publicação em 1/03/1985