O problema da superdispersão na análise de dados de contagens

O problema da superdspersão na análse de dados de contagens 1

Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão (φ ) é fxo e conhecdo; Em aplcações desse tpo, ao dentfcar a nadequação do ajuste (com base na análse de resíduos, ou numa devance resdual muto superor a n p ), dferentes causas podem ser consderadas: o A dstrbução proposta está errada; o Covaráves mportantes não estão presentes predtor lnear; o Covaráves nserdas de forma nadequada no modelo; o Presença de outlers... 2

Independente da causa de desajuste, esse problema de ajuste mutas vezes está assocado a um maor grau de varação nos dados do que o predto pelo modelo, ou seja: o Var( x ) > π ( 1 π ) y m y o ( ), para a dstrbução bnomal; Var > µ, para a dstrbução Posson. x A presença de varação nos dados excedente à predta pelo modelo caracterza o fenômeno chamado superdspersão. 3

Causas de superdspersão Algumas causas de superdspersão estão relaconadas dretamente ao delneamento amostral (ou expermental). Em outras stuações, prever ou dentfcar uma causa para a superdspersão nem sempre é possível. Na sequênca são relaconadas possíves fontes de superdspersão. o Varabldade entre as undades observadas que não é acomodada pelo modelo; o Correlação não nula entre as respostas ndvduas (decorrente de fatores não observados ou não ncorporados ao modelo); o Os dados apresentam algum tpo de agregação (por exemplo, resultante do uso de delneamentos amostras em estágos múltplos). 4

Consequêncas da superdspersão Como consequêncas de não levar em conta, no ajuste do modelo, a presença de superdspersão, destacamse: o Embora os estmadores dos parâmetros do modelo anda sejam consstentes, os erros padrões produzdos são ncorretos e subestmados; o Os resultados dos testes são ncorretos, podendo ndcar sgnfcânca estatístca de forma enganosa (testes super-otmstas ); o As alterações na devance assocadas à nclusão de termos ao modelo serão excessvamente elevadas, o que poderá nduzr à escolha de um modelo demasadamente complexo; o As nterpretações do modelo serão ncorretas e as demas estmatvas e predções terão precsão superor à realdade. 5

Modelos de regressão para dados de contagens na presença de superdspersão Algumas alternatvas apropradas para analsar dados na presença de superdspersão: o Utlzar alguma dstrbução alternatva (por exemplo a dstrbução bnomal negatva, como alternatva à dstrbução Posson, ou a beta-bnomal, como alternatva à bnomal); o Assumr alguma forma mas geral para a função de varânca, nclundo parâmetros adconas (modelos de quase-verossmlhança). o Incorporar um efeto aleatóro ao predtor lnear. 6

Dstrbução bnomal negatva Dzemos que Y é uma varável aleatóra com dstrbução bnomal negatva de parâmetros µ e k, denotada por Y BN (, k ) ~ µ, se sua função de probabldades é dada por: f Y ( y, k) ( k + y) y µ k ( k) y! ( µ + k) k Γ ; µ =, y = 0,1,2,...; k > 0; µ > 0. k + y Γ A esperança e a varânca de Y fcam dadas, respectvamente, por: E ( Y ) = µ ; Var( Y ) 2 µ = µ +. k A menos que k seja muto grande, a varânca de Y cresce mas rapdamente em relação à méda do que para a dstrbução Posson. 7

Se o parâmetro k for conhecdo, verfca-se que a dstrbução bnomal negatva pertence à famíla exponencal de dstrbuções e a teora de MLG se aplca; Se o parâmetro k for desconhecdo (stuação mas frequente), deve ser estmado va máxma verossmlhança juntamente com os demas parâmetros do modelo. Nota A dstrbução bnomal negatva é resultante do segunte processo em dos estágos: Se Y Y ( θ ) θ ~ Posson, onde os s θ também são varáves aleatóras, com θ Gama( k, λ ) 2 ~ Bn. neg( µ k), com E( y ) = µ = k / λ e Var( y ) µ + µ k, ' =. ~, então No R: Função glm.nb, pacote MASS. 8

Modelos de quase-verossmlhança Uma segunda forma de contornar o problema da superdspersão é propor alguma forma mas geral para a varânca, que permta acomodar adequadamente a varação extra. A abordagem de quase-verossmlhança (Wedderburn, 1974) não requer a especfcação de um modelo probablístco, mas apenas da méda e varânca (condconas) da dstrbução: g [ E( x )] = xβ; y ( y x ) = φv ( ), Var µ sendo V ( ) a função de varânca. A título de exemplo, como alternatva à dstrbução de Posson, ao nvés de especfcar x ~ Posson( ), o que mplca em ( y x ) = y µ Var µ, sob a abordagem da quase-verossmlhança 2 poderíamos propor E ( y x ) = µ e Var ( y x ) = φ µ. Ou anda, E ( y x ) = µ e Var ( ) = φ µ y x. 9

Nesse caso, a estmação dos parâmetros baseara-se na mnmzação do logartmo da função de quaseverossmlhança, defnda por: Q ( µ y) ( y t) V ( t) 1 µ, = φ d y t. As dervadas parcas da função de quase-verossmlhança, em relação aos parâmetros do modelo, produzem as funções quase-score, a partr das quas são obtdas as estmatvas de máxma quaseverossmlhança. O parâmetro de dspersão, nesses casos, é usualmente estmado com base na estatístca 2 Χ de Pearson: n ( y ˆ µ ) V ( µ ) ˆ 1 φ =. n p 1 ˆ = 10

Os estmadores de máxma quase-verossmlhança ( βˆ QL ) compartlham propredades semelhantes aos EMVs, sendo assntotcamente não vcados, consstentes e normalmente dstrbuídos: β ˆ QL a ~ N ( β, Var( β ˆ )), QL sendo com µ = g 1 ( x β ) e ω = Var( x ) 1 µ = 1 = 1 1 ( ˆ n n n β ) x x x x ω x x, Var = QL µ = 1 y No R: Defnr famly=quasposson, famly=quasbnomal ou famly=quas na função glm. 11