COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS

Tamanho: px
Começar a partir da página:

Download "COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS"

Transcrição

1 COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS Tânia Fernandes BOGUTCHI 1 Enrico Antônio COLOSIMO 2 Joel Alves LAMOUNIER 3 RESUMO: Modelos lineares generalizados para resposta binária ou contagem exigem que a variância seja uma função conhecida da média. Entretanto este tipo de dados é freqüentemente mais heterogêneo que a variância especificada pelo modelo. Este fato é conhecido como superdispersão a qual pode ser acomodada introduzindo um coeficiente extra fixo ou aleatório no modelo ou usar o método de quase-verossimilhança que abranda a relação média-variância permitindo o inflacionamento da variância. O objetivo deste trabalho é apresentar e comparar alguns testes propostos na literatura para identificar superdispersão em dados com resposta binomial. Os testes selecionados foram os apresentados por Ganio e Schafer (1992) Dean (1992) e Smith e Heitjan (1993) além do tradicional qui-quadrado de Pearson. Esse trabalho é ilustrado com os dados reais referentes ao II Estudo Epidemiológico em Saúde Escolar em Belo Horizonte MG. A variável resposta utilizada neste estudo foi o nível de colesterol total no qual foi considerado como risco grave os valores baixos para o desenvolvimento de doenças cardiovasculares. PALAVRAS-CHAVE: Modelo logístico; testes; variação extra-binomial. 1 Introdução Nelder e Wedderburn (1972) mostraram que a maioria dos problemas estatísticos podem ser formulados como modelos de regressão envolvendo uma variável resposta univariada variáveis explanatórias (covariáveis) e uma amostra aleatória de n observações. Um Modelo Linear Generalizado (MLG) (McCullagh e Nelder 1989) é composto por três elementos: (1) Componente aleatório: Y (variável resposta); (2) Componente determinístico: η X t (preditor linear) e (3) Função de ligação: g() η em que X é a matriz n x p do planejamento é o vetor p-dimensional de parâmetros e E(Y). Os métodos de estimação nos modelos lineares generalizados baseiam-se fundamentalmente na teoria da máxima verossimilhança (MV). Se não for possível 1 Departamento de Matemática e Estatística Pontitícia Universidade Católica de Minas Gerais - PUC CEP Belo Horizonte MG Brasil bogutchi@pucminas.br 2 Departamento de Estatística Universidade Federal de Minas Gerais - UFMG CEP Belo Horizonte MG Brasil enricoc@est.ufmg.br 3 Faculdade de Medicina Universidade Federal de Minas Gerais - FMG CEP Belo Horizonte MG Brasil lamounier@medicina.ufmg.br Rev. Mat. Estat. São Paulo v.23 n.3 p

2 especificar uma função de verossimilhança ou seja uma distribuição de probabilidade explícita e completa para a variável resposta uma aproximação possível é a construção de uma função de quase-verossimilhança (QV) ou quase-verossimilhança estendida (QVE) (McCullagh e Nelder 1989). A partir da teoria assintótica do estimador de máxima verossimilhança existem três estatísticas para testar hipóteses relativas aos parâmetros s: a da Razão de Máxima Verossimilhança a de Wald e a Escore (Demétrio 2001). Nesse trabalho vamos utilizar especialmente a estatística escore que tem a seguinte forma: em que é chamado de função escore onde é a função log-verossimilhança e I θ é a matriz de informação de Fisher. A estatística escore S tem para grandes amostras uma distribuição qui-quadrado com p graus de liberdade. Existem técnicas conhecidas e amplamente divulgadas de tratamento para dados cuja variável resposta assume apenas dois valores possíveis binária ou dicotômica sob a suposição de independência entre as observações. Uma técnica de utilização bastante comum por sua facilidade de interpretação é a regressão logística linear que permite incorporar variáveis explicativas na modelagem dos dados. O modelo logístico é um caso particular de MLG cuja média não-linear num conjunto de parâmetros lineares é linearizada pela função de ligação logit que tem a seguinte forma π i logit ( π ) π 1 - π i em que x i é um vetor p x 1 de covariáveis referente a i-ésima observação y i é a i-ésima resposta observada e π i P[Y i 1 X i ]. A média é ligada ao preditor linear pela função g(.). A função de ligação logística canônica é uma das três principais funções de ligação dos Modelos Lineares Generalizados para resposta binária. As outras duas são: Probit ( η Φ π ) onde Φ(.) é a função de distribuição acumulada da Normal padronizada e a Complementar log-log ( η { ( π )}. O termo superdispersão quer dizer que a variância da resposta observada Y excede a variância nominal estabelecida pelo modelo conforme foi definido por Hinde e Demétrio (1998). A superdispersão acarreta desvios-padrão incorretos podendo estar seriamente subestimados; alterações na deviance associadas com os termos do modelo muito grandes as quais acarretariam a seleção de modelos excessivamente complexos com interpretações incorretas e algumas predições imprecisas. Reconhecer dados com superdispersão é primordial para que sejam tomadas precauções e medidas capazes de garantir uma estimação com menor margem de erro ou seja com maior segurança. 56 Rev. Mat. Estat. São Paulo v.23 n.1 p

3 Os testes apresentados por Ganio e Schafer (1992) Dean (1992) e Smith e Heitjan (1993) além dos tradicionais como o qui-quadrado de Pearson têm como objetivo identificar superdispersão em respostas binárias. Estes testes têm formulações diferentes e as características próprias de cada um podem eventualmente apresentar resultados diferentes. Os testes estão apresentados na seção 2 e são comparados via simulação de Monte Carlo na seção 3. A seção 4 apresenta a aplicação desses testes em dois exemplos: um utilizando os dados de McCullagh e Nelder (1989 pág.145) e o outro os dados de um estudo realizado em Belo Horizonte MG no ano Testes para superdispersão Na literatura encontramos vários testes para identificar ausência de superdispersão em Modelos Lineares Generalizados tais como os apresentados por Ganio e Schafer (1992) Dean (1992) Smith e Heitjan (1993) os quais estão sendo comparados nesse trabalho além dos propostos por Commenges et al. (1994) Jacqmin-Gadda e Commenges (1995) Paula e Artes (2000). Além destes são citadas muitas variações e generalizações dos testes apresentados por estes autores. Por exemplo o teste escore proposto por Dean em 1992 é um caso particular do apresentado por Commenges et al em 1994 o qual verifica a presença de superdispersão em dados binários com variáveis explicativas fatores de riscos no desenvolvimento de uma determinada doença para diferentes agrupamentos de uma população. Os testes discutidos neste trabalho utilizam os Modelos Lineares Generalizados como plataforma mas com diferentes especificações nas funções de variância. 2.1 DEAN (1992) O modelo proposto por Dean (1992) supõe Y 1 Y 2...Y n variáveis respostas independentes provenientes da família exponencial uniparamétrica com a notação: θ i θ i (x i i ) i1...n função de um vetor px1 de covariáveis e parâmetros de regressão i a média ( θ ) e a variância de Y i σ θ. Para testar se o Modelo Linear Generalizado é adequado constrói-se uma família estendida de modelos considerando superdispersão ou seja onde a σ sendo que a igualdade ocorre apenas quando a distribuição de Y i é da família exponencial. Para tanto seja f(y i θ ) a densidade de Y i dado θ onde os θ s são variáveis aleatórias independentes e contínuas com média e variância finitas dadas por: E( θ ) θ i (x i i ) e Var ( θ ) τ b i (θ i ) > 0 em que b(.) é uma função conhecida. Supondo que E{( θ - θ i ) r } α r ; α r o(τ) r 3 quando τ 0 este modelo reduzse a f(y i ; θ i ) função de densidade de Y i componente aleatório do MLG resultado obtido através do valor esperado da expansão em série de Taylor em torno de θ i de θ e das suposições das condições de regularidade da teoria da máxima verossimilhança (Dean1992). Rev. Mat. Estat. São Paulo v.23 n.3 p

4 O teste escore para testar a hipótese τ 0 isto é o modelo linear generalizado é adequado é baseado em n i 1 i τ τ 0 n i 1 T ( ˆ ) i i em que θ é a estimativa de máxima verossimilhança de θ i quando τ0 e T i { } 2 ˆ σ 2 1 i i i 2 ( θ ) ( Y ) i em que i (.) e σ (.) são funções dependentes de θ i e T i possui distribuição assintoticamente normal com média zero e variância V 2 que será apresentada a seguir. A variância assintótica de T i é obtida através dos elementos da matriz de informação de Fisher e dos quatros primeiros momentos centrais de Y i avaliados em τ0 e é dada por: V 2 I τ - 1 t W 2 U(U t W 1 U) -1 U t W 2 1 em que I τ é uma partição da matriz de informação de Fisher pxp; 1 é um vetor unitário nx1 W 1 e W 2 são as matrizes diagonais com i-ésimo elemento dado por e U é a função escore (θ/) nxp. θ θ τ τ τ O teste estatístico padronizado para testar se τ0 é dado por: que sob H 0 tem uma distribuição N(01). θ 2.2 SMITH E HEITJAN (1993) Supondo que a relação entre a média i do componente aleatório e o vetor de p covariáveis seja conforme as definições do MLG e considerando um vetor de efeitos aleatórios provenientes de uma distribuição desconhecida F cuja média é o vetor de parâmetros estimados e ξ a matriz diagonal da variância de ordem p. Seja g(.) uma função de ligação monótona e derivável de ordem 2 temos então o modelo de superdispersão η. Se ξ j 0 para j1..p então o modelo assim definido corresponde ao modelo linear generalizado (sem superdispersão). Se ξ j > 0 a variância de Y é aumentada devido à variabilidade em e portanto Y é superdisperso. 58 Rev. Mat. Estat. São Paulo v.23 n.1 p

5 Rev. Mat. Estat. São Paulo v.23 n.3 p Para a determinação da estatística do teste de Smith e Heitjan (1993) será utilizado ( 1... p ) t no modelo de superdispersão acima. A contribuição da i-ésima observação para a função de verossimilhança é:! # $# τ τ τ. Dessa maneira a estatística escore pode ser obtida a partir da expansão de em série de Taylor até a segunda ordem em relação à média. Usando as regras de L Hôspital e supondo as condições de regularidade que permitem a inversão da ordem de integração e diferenciação (Cramér 1946) a estatística escore para testar a hipótese ξ j 0 é: # τ & ' & ' com j1... p e avaliado na estimativa de máxima verossimilhança sob a hipótese nula (ξ0). Na expressão obtida acima para a estatística U j. temos que ( ) η e ( ( ) ) + + θ η η η em que x ij é o j-ésimo elemento de x i com s i y i - i θ i é o parâmetro canônico i e v i são respectivamente a média e a variância de Y i (Hines1997). Dessa maneira o teste escore proposto é * ξ em que ξ ξ ξξ ξ * é a matriz de covariância de U corrigida pela estimação de com ξ ξ ξξ ξ ξ e n i t i i 1 I em que os escores ξ e e suas esperanças são calculados em ξ com substituído por sua estimativa de máxima verossimilhança sob a hipótese nula ( ξ ). Quando H 0 é verdadeira a distribuição assintótica de S 2 é uma qui-quadrado com p graus de liberdade. Se a estatística S 2 for relativamente grande em relação aos seus graus de liberdade a indicação é de afastamento de sua dispersão nominal. Entretanto a

6 composição da estatística S 2 não fornece indicação da natureza desse afastamento e para uma investigação mais específica pode-se tomar C τ { } e usar a estatística: C ij # * τ que sob a hipótese nula tem distribuição aproximadamente N(01) e na presença de superdispersão possui média positiva. 2.3 Qui-quadrado de PEARSON McCullagh e Nelder (1989) utilizam a estatística de Pearson + como teste para superdispersão em que e são estimativas amostrais da média e da variância respectivamente. Sob a hipótese nula modelo sem superdispersão X 2 têm distribuição qui-quadrado com n-p graus de liberdade. 2.4 GANIO e SCHAFER (1992) A função de distribuição da família exponencial uniparamétrica mais comumente θ - θ utilizada é + φ θ φ $# φ com φ. Por outro φ. lado se for utilizada a relação φ / chega-se à notação função de densidade da φ família exponencial θ φ/ $# { φ/ 0 θ - θ + / } φ utilizada por Cordeiro (1986) em que c 1 (.) é conhecida. Ganio e Schafer (1992) utilizam a mesma notação de Cordeiro (1986) e dessa maneira a variância do teste proposto é especificada por com φ / φ 1 γ γ λ +2 α onde V(.) é uma função positiva conhecida os a i s são constantes conhecidas h(.) é uma função positiva diferenciável de ordem 2 λ é um parâmetro escalar z i é um vetor qx1 de covariáveis que são tomadas como centradas ou seja 2 e α é o vetor qx1 de parâmetros desconhecidos. O teste de superdispersão é aplicado nos parâmetros α s ou seja sob a hipótese nula: 4 3 α e se essa hipótese for verdadeira então φ i é um parâmetro de dispersão constante e temos o modelo linear generalizado isto é sem superdispersão. O método de estimação utiliza a suposição de Y pertencer à família exponencial dupla que permite um parâmetro de escala adicional φ na variância (Efron 1986) e o 60 Rev. Mat. Estat. São Paulo v.23 n.1 p

7 logaritmo da função quase-verossimilhança estendida para essa família é φ φ φ 5 5 componente da ( ) ( )[ ] em que ( ) Deviance Residual é obtido por [( ( )] [ 5 ( )] exponencial uniparamétrica tendo exatamente uma distribuição 6 ( ) que com base na família φ. No caso da distribuição binomial com índice m i a escolha de 5 5 ( ) 5 faz de ( φ ) ( ) + ( 7 ) ( 7 ) ( 7 ) em o logaritmo da função de verossimilhança para a distribuição binomial dupla (Efron1986). e φ que maximizam ( ) As estimativas de φ podem ser obtidas iterativamente: a cada iteração os parâmetros da média são estimados por máxima quaseverossimilhança com vetor de pesos φ e então os parâmetros estimados em φ são φ. O último estágio é acompanhado pelo ajuste atualizados pela maximização de ( ) de um modelo linear generalizado para ( ) 5 supondo Y i com distribuição gama. / O teste escore proposto é: 5 ( 5 ) 52 ( 2 2 ) / 5 2 em que 5 5 é o i-ésimo componente da estatística deviance para o ajuste do modelo reduzido e 5 5 é a média dos n 5 s. Sob a hipótese nula DS tem uma distribuição qui-quadrado com q graus de liberdade caso o modelo da família exponencial dupla esteja correto. Observa-se que a estatística do teste é independente da forma de h(.) e que DS é a soma de quadrados devido à regressão linear de 5 em z padronizado por ( 5 ). Ganio e Schafer (1992) também propuseram mais outros três testes para identificar superdispersão no modelo especificado para a variância: Razão de verossimilhança; Razão de pseudo-verossimilhança e Escore da pseudo-verossimilhança onde os componentes da Deviance residual são substituídos pela estatística de Pearson. 3 Simulações de Monte Carlo As simulações de Monte Carlo para comparar os testes da Dean (1992) Smith e Heitjan (1993) Pearson e o da Ganio e Schafer (1992) consistiram de repetições e foram geradas no software Splus As simulações foram feitas em dados com e sem superdispersão e o número de repetições foi uma escolha arbitrária. Rev. Mat. Estat. São Paulo v.23 n.3 p

8 3.1 Simulação em dados sem superdispersão Os passos para a simulação foram os seguintes: (1) geração da covariável X N(01) ou Bernoulli (1/2) com tamanhos de amostra n e 100; (2) considerando 0 0 e 1 1 foram calculadas as probabilidades de $# sucesso # ; (3) considerando valores fixos para m ( e 60) + $# foram geradas as variáveis Y~Bin(mp) para os vários valores de n; (4) foram ajustados os modelos utilizando o comando glim do Splus para obtenção das estimações dos s e das probabilidades de sucesso; (5) realização dos testes. Os passos (3) a (5) foram repetidos 1000 vezes e os resultados dos testes considerando o nível nominal de 5 foram computados. As representações gráficas desses resultados considerando a covariável X~N(01) e X~Bernoulli(1/2) são apresentadas nas Figuras 1 e 2 (a) (b) (c) e (d) respectivamente. Smith Dean Pearson Ganio Smith Dean Pearson Ganio P e rc e n tu a l d e re j e i ç ã o d e H o P e rc e n tu a l d e re je i ç ã o d e H o N20 N40 N60 N80 N100 0 N20 N40 N60 N80 N100 Y~B(10p) (a) Y~B(20p) (b) Smith Dean Pearson Ganio Smith Dean Pearson Ganio P e rc e n tu a l d e r e j e i ç ã o d e H o P e rc e n tu a l d e r e je iç ã o d e H o N20 N40 N60 N80 N100 0 N20 N40 N60 N80 N100 Y~B(40p) (c) Y~B(60p) (d) FIGURA 1 - (a) m10; (b) m20; (c) m40 e (d) m60: Comparação entre os testes considerando dados sem superdispersão e covariável com distribuição normal padronizada. 62 Rev. Mat. Estat. São Paulo v.23 n.1 p

9 Smith Dean Pearson Ganio Smith Dean Pearson Ganio 8 8 Percentual de rejeição de Ho Percentual de rejeição de Ho N20 N40 N60 N80 N100 0 N20 N40 N60 N80 N100 Y~B(10p) (a) Y~B(20p) (b) Smith Dean Pearson Ganio Smith Dean Pearson Ganio Percentual de rejeição de Ho Percentual de rejeição de Ho N20 N40 N60 N80 N100 0 N20 N40 N60 N80 N100 Y~B(40p) (c) Y~B(60p) (d) FIGURA 2 - (a) m10; (b) m20; (c) m40 e (d) m60: Comparação entre os testes considerando dados sem superdispersão e covariável com distribuição Bernoulli(1/2). Algumas considerações a partir dos resultados apresentados nas Figuras 1 e 2: (a) o teste da Ganio e Schafer (1992) apresentou muita instabilidade de cálculo para m10 nos dois tipos de distribuição da covariável; (b) o teste da Dean (1992) Ganio e Schafer (1992) e o de Pearson são melhores que o de Smith e Heitjan (1993) principalmente no caso da covariável com distribuição N(01) pois os níveis empíricos desses testes ficaram mais próximos do nominal; (c) com o aumento no tamanho da amostra os testes tendem a se aproximar do valor nominal; (d) nos casos da covariável com distribuição de Bernoulli e tamanho da amostra igual a 10 os testes não convergiram para o valor nominal em nenhum dos dois valores de m (10 ou 20) e para a covariável com distribuição normal padronizada os testes não apresentaram diferenças relevantes entre si para esses dois valores de m; (e) considerando apenas o teste de Smith e Heitjan (1993) os melhores resultados isto é mais próximos do valor nominal foram obtidos com a utilização da covariável de Bernoulli em relação à Normal. 3.2 Simulação em dados com superdispersão Os passos para essa simulação foram os seguintes: (1) geração das covariáveis: X 1 ~Bernoulli(1/2) e X 2 ~Bernoulli(1/2) com tamanhos da amostra n e 100; (2) considerando e 2 3 foram calculadas as probabilidades de sucesso Rev. Mat. Estat. São Paulo v.23 n.3 p

10 $# # ; (3) considerando valores fixos para m (40 e 60) foram geradas as + $# variáveis Y~Bin(mp) para os vários valores de n; (4) foram ajustados os modelos considerando apenas a covariável X 1 utilizando o comando glim do Splus para obtenção das estimações dos s e das probabilidades de sucesso; (5) realização dos testes. Os passos (3) a (5) foram repetidos 1000 vezes e os resultados dos testes considerando a rejeição da hipótese nula foram computados. Para a geração de Y superdisperso foram testados vários valores para 2 sendo inicializado com o valor 5 o qual gerou uma superdispersão muito alta e conseqüentemente todos os testes apresentaram 100 de rejeição da hipótese nula. Após algumas tentativas optou-se pelo valor 3. As Figuras 3 (a) e (b) apresentam os resultados dessa simulação para os testes Dean Smith e Heitjan e Pearson. Smith Dean Pearson Smith Dean Pearson Percentual de rejeição de Ho Percentual de rejeição de Ho N40 N60 N80 N N40 N60 N80 N100 Y~B(40p) (a) Y~B(60p) (b) FIGURA 3 - Comparação entre os testes considerando Y superdisperso considerando (a) m40; (b) m60. Observando as Figuras 3 (a) e (b) pode-se concluir que: (a) o teste de Smith e Heitjan (1993) apresenta os piores resultados para o poder em todos os tamanhos de amostra; (b) o poder de todos os testes aumenta com o crescimento do tamanho da amostra; (c) os testes da Dean (1992) e o de Pearson apresentam resultados mais estáveis principalmente para o valor de m 60. Comparando os resultados apresentados nos pares de Figuras (2 (c) e 3 (a)) e (2 (d) e 3 (b)) verifica-se que os testes são consistentes em seus resultados ou seja os melhores na detecção da superdispersão também são os que apresentam níveis empíricos mais próximos dos valores nominais. 4 Aplicações dos testes Os testes estudados neste trabalho serão aplicados em dois conjuntos de dados com o objetivo de observar a consistência e robustez em situações diversificadas. A primeira aplicação utilizará os dados da Tabela 4.10 página 145 do livro de McCullagh e Nelder 64 Rev. Mat. Estat. São Paulo v.23 n.1 p

11 (1989) com as informações de um estudo sobre hereditariedade que considera o número de filhos com olhos claros em 78 famílias com no mínimo 6 filhos cada em relação à cor dos olhos dos pais e dos avós. No processo de modelagem o teste da razão de verossimilhança mostrou que a contribuição dos avós não era significativa dessa maneira será considerada somente a contribuição da cor dos olhos dos pais. A segunda aplicação será no conjunto de dados do II Estudo Epidemiológico em Saúde Escolar em Belo Horizonte MG realizado em 2000 onde buscou-se verificar a influência de algumas covariáveis explicativas para o nível do colesterol total considerado como fator de risco para o desenvolvimento de doenças cardiovasculares. 4.1 Aplicação 1: Tabela 4.10 pág. 145 McCullagh e Nelder (1989) Foram criadas as variáveis indicadoras das combinações possíveis para as cores dos olhos dos pais segundo as classificações fornecidas L (light) H (hazel) e D (dark). Dessa maneira para a cor dos olhos dos pais foi obtido um fator em 6 níveis em que por exemplo LL indica olhos claros do pai e da mãe. Por simplicidade será chamado de P o conjunto das variáveis indicadoras da cor dos olhos dos pais. O ajuste dos dados com a covariável P pelo MLG no software Glim-4 apresentou deviance de e 72 graus de liberdade residual. O valor da deviance é maior que os graus de liberdade do resíduo indicando uma provável superdispersão ou um ajuste inadequado do modelo devido entre outras causas à presença de outliers (Hinde e Demétrio 1998). Utilizando a técnica gráfica do envelope Half-normal plot desenvolvido por Hinde e Demétrio (1998) para o modelo ajustado no Glim-4 observa-se na Figura 4 a existência de duas observações discrepantes e a indicação de ocorrência de uma leve superdispersão para a covariável P fato esse também observado em Paula e Artes (2000). Os pontos soltos (outliers) são referentes às famílias números 18 e 47. Após a retirada dessas duas observações do conjunto de dados o novo modelo ajustado apresentou uma deviance de 7222 e 70 graus de liberdade do resíduo e o Half-normal plot indicou adequação do modelo. A Tabela 1 apresenta os resultados da aplicação dos testes para diagnóstico de superdispersão nesse conjunto de dados considerando o nível nominal de 5. Tabela 1- Resultados dos testes para superdispersão no modelo univariado covariável P nos dados do exemplo de McCullagh e Nelder (1989) Teste aplicado Valor obtido Distribuição P valor Indicação de superdispersão Deviance χ com 72 gl - Sim Pearson Smith e Heitjan Ganio e Schafer χ com 72 gl Sim χ com 6 gl Não χ com 1 gl Não Dean N(01) Não Rev. Mat. Estat. São Paulo v.23 n.3 p

12 FIGURA 4 - Envelope Half-normal plot no modelo do McCullagh e Nelder (1989) com a covariável P: cor dos olhos dos pais. O único teste que indicou superdispersão foi o de Pearson. Os outros não foram influenciados pela presença dos outliers desse exemplo. 4.2 Aplicação 2: II Estudo Epidemiológico em Minas Gerais (2000) Os dados reais utilizados nesse trabalho foram obtidos no II Estudo Epidemiológico em Saúde Escolar em Belo Horizonte MG4 e a variável resposta utilizada foi a proporção do nível de colesterol total considerado como risco grave para o desenvolvimento de doenças cardiovasculares na idade adulta. Os pontos de corte para esse risco são os valores acima do percentil 90 fornecidos pelo Lipid Research Clinics Prevalence Study (LRC) considerando a idade o gênero e a raça para a população norteamericana. Foram aplicados os testes propostos para a verificação da ocorrência ou não de superdispersão para se ter garantia no uso da técnica de análise por regressão logística. Foi feito o ajustamento do modelo linear generalizado com função de ligação logit da família binomial no Splus-2000 e as covariáveis que foram significativas na modelagem final 4 Resultados apresentados na dissertação de mestrado em Pediatria da Faculdade de Medicina da UFMG de Robespierre Q.R. Costa com orientação do Prof. Dr. Joel A. Lamounier. 66 Rev. Mat. Estat. São Paulo v.23 n.1 p

13 foram a raça a classificação econômica o sexo e o sobrepeso/obesidade cujas codificações encontram-se na Tabela 2. Tabela 2 - Variáveis para o estudo das dislipidemias Variável Resposta: (LRC90) RISCO GRAVE (Colesterol total acima do percentil 90 (LRC)) NEGROS (Raça) TIPOCSE (Classificação econômica) SEXO (Gênero) IMC85 (IMC acima do percentil 85 do Rosner) Codificação 1 Sim; 0 Não 1 Negra; 0 Não negra 1 A1 a B2; 0 C a E 1 Feminino; 0 Masculino 1 Com sobrepeso ou obeso; 0 Normal A variável resposta é binária e representa o nível de colesterol total considerado como risco grave para o desenvolvimento de doenças cardiovasculares em relação ao número obtido em cada configuração possível. A prevalência do nível de colesterol total considerado como risco grave foi de 120 (160/1331). Os alunos amostrados foram categorizados em três níveis por raça: branca morena e negra. Através da modelagem por regressão logística foi verificado que o efeito da raça morena era o mesmo da raça branca. Esse fato motivou o agrupamento da raça branca e morena numa única categoria surgindo então a covariável negros indicadora da raça negra e com participação de 15 na amostra. A classificação econômica foi obtida através do critério de classificação econômica da ABA/ABIPEME/ANEP de 1997 que pode ser obtido através do site: As classes econômicas foram agrupadas de A1 à B2 e de C à E pelo método análogo ao do agrupamento efetuado na raça sendo a covariável tipocse a indicadora da classe A1 à B2 com 433 de participação na amostra. A covariável sexo é indicadora do gênero feminino e representa 533 da amostra. A covariável imc85 é a indicadora do sobrepeso/obesidade. Para a indicação de sobrepeso/obesidade considera-se o valor do índice de massa corporal IMC que é uma relação entre o peso em kg e o quadrado da altura em metros comparado ao valor tabelado para o percentil 85. Os valores acima do percentil 95 são considerados como obesidade. Os pontos de corte foram obtidos na tabela de Rosner (1998) considerando a população norte americana. Nessa amostra 115 dos alunos foram considerados com sobrepeso/obesidade sendo de 31 o percentual dos obesos. Ajustando o MLG no software Glim-4 ou com função de ligação logit da família binomial no Splus-2000 o valor da deviance residual foi de e 11 graus de liberdade sendo essa indicação de uma possível existência de superdispersão. A Figura 5 mostra que o envelope do Half-normal plot (Hinde e Demétrio 1998) indica ocorrência de uma leve superdispersão. Rev. Mat. Estat. São Paulo v.23 n.3 p

14 FIGURA 5 - Envelope Half-normal plot no modelo do II Estudo Epidemiológico (2000) para a variável resposta Colesterol total. A Tabela 3 apresenta os resultados dos testes aplicados nos dados do colesterol total considerando a variável resposta como risco grave ao desenvolvimento de doenças coronarianas. Os testes são consistentes em concluir pela ausência de superdispersão. Tabela 3 - Resultados dos testes para superdispersão no modelo multivariado ajustado para os dados do colesterol total do II Estudo Epidemiológico em 2000 Teste aplicado Valor obtido Distribuição P valor Pearson Indicação de superdispersão χ com 12 gl Sim Smith e Heitjan Ganio e Schafer χ com 4 gl Não χ com 1 gl Não Dean N(01) Não 68 Rev. Mat. Estat. São Paulo v.23 n.1 p

15 5 Considerações finais Dentre os testes propostos e comparados nesse trabalho o da Dean (1992) parece ser o melhor considerando as características exploradas nessa simulação. Apesar de ser o mais antigo dentre eles o teste de Pearson mostrou-se extremamente poderoso e adequado o suficiente para continuar sendo utilizado conforme indicação de McCullagh e Nelder (1989). O teste da Ganio e Schafer (1992) apresenta um formato aparentemente simples mas a sua aplicação nos dados gerados não convergiu em algumas das situações simuladas devido ao tipo de parametrização utilizada nos demais testes. O teste proposto por Smith e Heitjan (1993) apresentou duas grandes dificuldades em sua implementação. Primeiramente o cálculo do teste escore apresentava erros nos elementos da matriz como função dos quatro primeiros momentos centrais relacionados com os cumulantes de Y e necessitou de um longo tempo despendido para correção desses cálculos que envolviam complexas derivadas da função de verossimilhança. A segunda dificuldade neste teste é sua sensibilidade à codificação das covariáveis categóricas e à sua distribuição. BOGUTCHI T. F.; COLOSIMO E. A.; LAMOUNIER J. A. Overdispersion tests for binary data. Rev. Mat. Est. São Paulo v.23 n.3 p ABSTRACT: Generalized linear models for binary and counting response require that variance be a function of the mean. However a greater variance than the one specified by the model is not uncommon observed. This fact is known as overdispersion and can be solved by adding an extra term fixed or random to the model or by using quasi-likelihood methods. The aim of this study was to compare some overdispersion tests proposed in the literature. The selected tests are those presented by Ganio e Schafer (1992) Dean (1992) and Smith e Heitjan (1993) in addition to the well-known Pearson s chi-square teste. This study used a data set from the II Epidemiological Study of Health School in Belo Horizonte - MG. The response variable was the cholesterol level. KEY-WORDS: Extra-binomial variation; logit model; statistical tests. Referências COMMENGES D. ; et al. Test of homogeneity of binary data with explanatory variables. Biometrics Washington v.50 p CORDEIRO G. M. Modelos lineares generalizados. In: SINAPE Campinas. Resumos Campinas: ABE COX D. R. Some remarks on overdispersion. Biometrika London v.70 p CRAMÉR H. Mathematical methods of statistics. Princeton: Princeton University Press DEAN C. B. Testing for overdispersion in poisson and binomial models. J. Am. Stat. Assoc. New York v.87 p EFRON B. Double exponential families and their use in generalized linear models. J. Am. Stat. Assoc. New York v.81 p Rev. Mat. Estat. São Paulo v.23 n.3 p

16 GANIO L. M. SCHAFER D. W. Diagnostics for overdispersion. J. Am. Stat. Assoc. New York v.87 p HINDE J. DEMÉTRIO C. G. B. Overdispersion: models and estimation. In: SINAPE Caxambu. Resumos Caxambu: ABE HINES R. J. O. A Comparison of testes for overdispersion in generalized linear models. J. Stat. Comput. Simul. New York v.58 p JACQMIN-GADDA H. COMMENGES D. Tests of homogeneity for generalized linear models. J. Am. Stat. Assoc. New York v.90 p McCULLAGH P. NELDER J. A. Generalized linear models. 2nd. ed. London: Chapman and Hall NELDER J. A.; WEDDERBURN R. W. M. generalized linear models. J. R. Stat. Soc. Serie A London v.135 n.3 p PAULA G. A. ARTES R. One-sided test to assess correlation in linear logistic models using estimating equations. Biom. J. Berlin v.42 p ROSNER B et al. Percentiles for body mass index in U.S. children 5 to 17 years age. J. Pediatr. St. Louis v.132 n.2 p SMITH P. J. HEITJAN D. F. Testing and adjusting for departures from nominal dispersion in generalized linear models. J. R. Stat. Soc. Ser.C Apll. Stat. London v.42 p Recebido em Aprovado após revisão em Rev. Mat. Estat. São Paulo v.23 n.1 p

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES Telde Natel CUSTÓDIO 1 Décio BARBIN RESUMO: O objetivo deste trabalho foi apresentar um procedimento

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Exemplos Modelos de Quase-Verossimilhança

Exemplos Modelos de Quase-Verossimilhança Exemplos Modelos de Quase-Verossimilhança p. 1/40 Exemplos Modelos de Quase-Verossimilhança Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 3 4 5 6 7 8 9 10 11 1 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo 1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma

Leia mais

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Vanessa Siqueira Peres da Silva 1 2 Daniel Furtado Ferreira 1 1 Introdução É comum em determinadas

Leia mais

Aplicação dos modelos lineares generalizados na análise do

Aplicação dos modelos lineares generalizados na análise do Aplicação dos modelos lineares generalizados na análise do número de ácaros Ana Paula Coelho Madeira Silva 12 Fabrício Oliveira Fernandes 12 Marcos Antonio Matiello Fadini 12 1 Introdução O estudo das

Leia mais

MODELANDO DADOS LONGITUDINAIS DE PROPORÇÕES DE PEGAMENTO DE CAMU-CAMU

MODELANDO DADOS LONGITUDINAIS DE PROPORÇÕES DE PEGAMENTO DE CAMU-CAMU MODELANDO DADOS LONGITUDINAIS DE PROPORÇÕES DE PEGAMENTO DE CAMU-CAMU Silvano Cesar da COSTA 1 Clarice Garcia Borges DEMÉTRIO2 Eduardo SUGUINO 3 Suely Ruiz GIOLO 4 RESUMO: Dados de proporção são muito

Leia mais

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário (bootstrap) Este método foi proposto por Efron

Leia mais

Modelo de regressão Beta

Modelo de regressão Beta Modelo de regressão Beta Fernando Lucambio Pérez Departamento de Estatística Universidade Federal do Paraná Agosto de 2004 1 Consideremos uma situação em que a variável resposta contínua é restrita ao

Leia mais

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja Natália da Silva Martins 1, Davi Butturi-Gomes 1, Lucas Souza Capelaro 2 1 Instituto de Ciências Exatas,

Leia mais

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8) 4 Metodologia Serão apresentadas duas formas de se estimar a persistência. A primeira é de forma mais agregada e se utiliza de dados em forma de triângulos de run-off e é conhecida como Chain Ladder, uma

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Dimensionamento de amostras para regressão logística

Dimensionamento de amostras para regressão logística Dimensionamento de amostras para regressão logística Arminda Lucia Siqueira 1 Flávia Komatsuzaki 1 Introdução Regressão logística é hoje padrão de análise para muitos estudos da área da saúde cuja variável

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1

Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1 Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1 Alessandra dos Santos 2 ernando de Pol Mayer 2 Rafael de Andrade Moral 2 Luiz Henrique Costa Mota 3 Clarice Garcia

Leia mais

Número de Consultas ao Médico

Número de Consultas ao Médico UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA CURSO DE ESTATÍSTICA João Matheus S. K. T. Hneda Lineu Alberto Cavazani de Freitas Número de Consultas ao Médico Análise

Leia mais

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS Antes de apresentar alguns dos testes de hipóteses e intervalos de confiança mais usuais em MLG, segue a definição de modelos

Leia mais

Modelo Linear Generalizado Exponencial Potência

Modelo Linear Generalizado Exponencial Potência Modelo Linear Generalizado Exponencial Potência Cristian Villegas 1 2 1 Introdução Os modelos lineares normais são amplamente aplicados em diversas áreas do conhecimento para modelar a média de dados contínuos

Leia mais

Ajuste e comparação de modelos para dados grupados e censurados

Ajuste e comparação de modelos para dados grupados e censurados Ajuste e comparação de modelos para dados grupados e censurados 1 Introdução José Nilton da Cruz 1 Liciana Vaz de Arruda Silveira 2 José Raimundo de Souza Passos 2 A análise de sobrevivência é um conjunto

Leia mais

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt lucas.breniuk@hotmail.com Estimação de parâmetros Média Variância Proporção Estimação de parâmetros Média: " estimador

Leia mais

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS Thalita do Bem Mattos Clécio da

Leia mais

1 z 1 1 z 2. Z =. 1 z n

1 z 1 1 z 2. Z =. 1 z n Gabarito Lista 3. Tópicos de Regressão. 2016-2. 1. Temos que y i ind N (µ, φi ), com log φ i = α + γz i, para i = 1,..., n, portanto (i) para o γ = (α, γ) a matriz modelo ca Z = 1 z 1 1 z 2.. 1 z n (ii)

Leia mais

Delineamento e Análise Experimental Aula 4

Delineamento e Análise Experimental Aula 4 Aula 4 Castro Soares de Oliveira ANOVA Significativa Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais.

Leia mais

Modelos Binomial e Poisson

Modelos Binomial e Poisson Objetivos Motivação BIE5781 - Pós-Graduação em Ecologia USP Setembro de 2016 Objetivos Motivação Objetivo da Aula Os objetivos dessa aula são: Objetivos Motivação Objetivo da Aula Os objetivos dessa aula

Leia mais

Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações

Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações Introdução Arminda Lucia Siqueira Dimensionamento de amostras, importante elemento

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro COMPARAÇÃO DOS MÉTODOS DE VERIFICAÇÃO DO AJUSTE DA DISTRIBUIÇÃO GUMBEL A DADOS EXTREMOS CARLOS JOSÉ DOS REIS 1, LUIZ ALBERTO BEIJO 2,GILBERTO RODRIGUES LISKA 3 RESUMO A distribuição Gumbel é muito aplicada

Leia mais

AULA 8 Experimentos multinomiais e tabelas de contingência

AULA 8 Experimentos multinomiais e tabelas de contingência 1 AULA 8 Experimentos multinomiais e tabelas de contingência Ernesto F. L. Amaral 05 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

Regressão de Poisson e parentes próximos

Regressão de Poisson e parentes próximos Janeiro 2012 Família Exponencial Seja Y uma variável aleatória. A distribuição de probabilidade de Y pertence à família exponencial se a sua função densidade de probabilidade é da forma ( ) yθ b(θ) f (y

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros

O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros Eriton Barros dos Santos 1 Sílvia Maria de Freitas 2 1 Introdução Dados de contagem são comuns em diversas áreas.

Leia mais

Modelos de Regressão para Dados de Contagem

Modelos de Regressão para Dados de Contagem UNIVERSIDADE FEDERAL DO PARANÁ Departamento de Estatística Modelos de Regressão para Dados de Contagem CE225 - Modelos Lineares Generalizados Professor Cesar Taconelli Andrea A Alves, GRR: 20096668 NathanM

Leia mais

Modelos Binomial e Poisson

Modelos Binomial e Poisson Objetivos Motivação BIE5781 - Pós-Graduação em Ecologia USP setembro de 2012 Objetivo da Aula Objetivos Motivação Os objetivos dessa aula são: Objetivos Motivação Objetivo da Aula Os objetivos dessa aula

Leia mais

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO CE225 - Modelos Lineares Generalizados Eduardo

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

3 Modelos para o Cálculo de IBNR

3 Modelos para o Cálculo de IBNR 3 Modelos para o Cálculo de IBNR 3.1 O Método de Mack Tomas Mack em (24) propõe um modelo probabilístico para o método Chain Ladder que fornece estimativas de provisão idênticas à técnica Chain Ladder

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Em uma grande escola, 10% dos alunos são comprovadamente fracos. Um teste educacional conseguiu identificar corretamente 80% entre aqueles que são fracos e 85% entre aqueles que

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR - 20160239 LUAN FIORENTIN GRR - 20160219 MODELAGEM DE DADOS DE ÓBITOS POR AGRESSÕES NO ESTADO DE SÃO PAULO NO ANO DE 2016 CURITIBA Novembro

Leia mais

Modelos com erros nas variáveis: teoria e

Modelos com erros nas variáveis: teoria e Modelos com erros nas variáveis: teoria e aplicações Alexandre Galvão Patriota Agradecimentos à Fapesp, Cnpq e Capes pelo apoio financeiro Alexandre G. Patriota (patriota@ime.usp.br) Modelos com erros

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial UNIVERSIDADE FEDERAL DO PARANÁ Rafael Morciani Alves da Silva Maike Willian Martins dos Santos Mateus Gemelli Ramos Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão

Leia mais

MAE Modelos Lineares Generalizados 2 o semestre 2017

MAE Modelos Lineares Generalizados 2 o semestre 2017 MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z?

Leia mais

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Stela Adami Vayego Estatística II CE003/DEST/UFPR Resumo 1 Teste de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,

Leia mais

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas no assistente no software estatístico

Leia mais

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV 69 'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV O presente capítulo objetiva entender o comportamento das séries de retorno financeiras para as carteiras de investimento elaboradas no capítulo anterior. Tal análise

Leia mais

O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG

O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG Robson de Souza Vieira 1 ; Rogério Silva Pimentel 1 ; Emerson Wruck 2

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica 1/41 Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Revisão para Dados Transversais 1 Características Informações amostrais

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

IBP1263_06 ANÁLISE ESTATÍSTICA DO IMPACTO DA POLUIÇÃO ATMOSFÉRICA NA SAÚDE POPULACIONAL Yara T. Yara 1, Cássia U. Cássia 2,Admilson F.

IBP1263_06 ANÁLISE ESTATÍSTICA DO IMPACTO DA POLUIÇÃO ATMOSFÉRICA NA SAÚDE POPULACIONAL Yara T. Yara 1, Cássia U. Cássia 2,Admilson F. IBP163_06 ANÁLISE ESTATÍSTICA DO IMPACTO DA POLUIÇÃO ATMOSFÉRICA NA SAÚDE POPULACIONAL Yara T. Yara 1, Cássia U. Cássia,Admilson F. Admilson 3 Copyright 006, Instituto Brasileiro de Petróleo e Gás - IBP.

Leia mais

REGRESSÃO E CORRELAÇÃO

REGRESSÃO E CORRELAÇÃO REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,

Leia mais

Estimação e Testes de Hipóteses

Estimação e Testes de Hipóteses Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CESPE/UnB FUB/03 fa 5 4 3 CONHECIMENTOS ESPECÍFICOS 60 As distribuições B e C possuem os mesmos valores para os quartis Q e Q, e o quartil superior em B corresponde ao quartil central (Q ) da distribuição

Leia mais

Apontamentos de Introdução às Probabilidades e à Estatística

Apontamentos de Introdução às Probabilidades e à Estatística i Índice 1. Introdução 1 1.1. Enquadramento e objectivos 2 1.2. Organização 5 1.3. Noções base da Estatística 7 1.3.1. Distinção entre população e amostra 8 1.3.2. Amostragem 10 1.3.3. Unidade estatística

Leia mais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais 1/55 Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais Enrico A. Colosimo-UFMG www.est.ufmg.br/ enricoc 2/55 Respostas Longitudinal Não-Gaussiana 1 Y ij, i = 1,..., N; j = 1,...,

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o Modelo Matemático 57 3 Modelo Matemático Este trabalho analisa o efeito da imprecisão na estimativa do desvio-padrão do processo sobre o desempenho do gráfico de S e sobre os índices de capacidade do processo.

Leia mais

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia 1 / 44 Métodos Estatísticos Avançados em Epidemiologia Análise de Variância - ANOVA Referência: Cap. 12 - Pagano e Gauvreau (2004) - p.254 Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2 / 44

Leia mais

Regressão Linear - Parte I

Regressão Linear - Parte I UFPE - Universidade Federal de Pernambuco Curso: Economia Disciplina: ET-406 Estatística Econômica Professor: Waldemar Araújo de S. Cruz Oliveira Júnior Regressão Linear - Parte I 1 Introdução Podemos

Leia mais

Exemplos Regressão Dados de Contagem

Exemplos Regressão Dados de Contagem Exemplos Regressão Dados de Contagem p. 1/26 Exemplos Regressão Dados de Contagem Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de 2011 Exemplos

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 3 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 2 3 4 5 6 7 8 9 0 2 3 4 5 e 6 Introdução à probabilidade (eventos, espaço

Leia mais

Comparando equações de regressão em dados de saúde

Comparando equações de regressão em dados de saúde Comparando equações de regressão em dados de saúde Terezinha Aparecida Guedes*, Ivan Ludgero Ivanqui e Ana Beatriz Tozzo Martins Departamento de Estatística, Universidade Estadual de Maringá, Av Colombo,

Leia mais

Delineamento e Análise Experimental Aula 3

Delineamento e Análise Experimental Aula 3 Aula 3 Castro Soares de Oliveira Teste de hipótese Teste de hipótese é uma metodologia estatística que permite tomar decisões sobre uma ou mais populações baseando-se no conhecimento de informações da

Leia mais

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo César Gonçalves de Lima 1 Michele Barbosa 2 Valdo Rodrigues Herling 3 1. Introdução Dados longitudinais

Leia mais

Teste de % de defeituosos para 1 amostra

Teste de % de defeituosos para 1 amostra DOCUMENTO OFICIAL DO ASSISTENTE DO MINITAB Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas

Leia mais

Testes de Raiz Unitária para Dados em Painel

Testes de Raiz Unitária para Dados em Painel Aula 7 Bibliografia: Stata, 2017. help xtunitroot. From Stata/SE 13 (accessed on Oct. 23, 2018). Pesaran, M.H. (2015). Time series and panel data econometrics. Oxford: Oxford University Press. Rafael S.

Leia mais