O problema da superdispersão na análise de dados de contagens

O problema da superdspersão na análse de dados de contagens 1

Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão (φ ) é fxo e conhecdo; Em aplcações desse tpo, ao dentfcar a nadequação do ajuste (por exemplo, quando a devance resdual do modelo é muto superor a n p ), há dferentes possíves causas a serem consderadas: o A dstrbução proposta está errada; o Termos ou varáves explcatvas relevantes ausentes do predtor lnear; o Varáves explcatvas nserdas de forma nadequada no modelo; o Presença de outlers... 2

Independente da causa de desajuste, esse problema de ajuste mutas vezes está assocado a um maor grau de varação nos dados do que o predto pelo modelo, ou seja: o Var( x ) > π ( 1 π ) y m y o ( ), para a dstrbução bnomal; Var > µ, para a dstrbução Posson. x A presença de varação nos dados excedente à predta pelo modelo caracterza o fenômeno chamado superdspersão. A superdspersão pode ser dentfcada a partr da devance do modelo e da análse dos resíduos. 3

Causas de superdspersão Algumas causas de superdspersão estão relaconadas dretamente ao delneamento amostral (ou expermental). Em outras stuações, prever ou dentfcar uma causa para a superdspersão nem sempre é possível. Na sequênca são relaconadas possíves fontes de superdspersão. o Varabldade entre as undades observadas que não é acomodada pelo modelo; o Correlação não nula entre as respostas ndvduas (decorrente de fatores não observados ou não ncorporados ao modelo); o Os dados apresentam algum tpo de agregação (por exemplo, resultante do uso de delneamentos amostras em estágos múltplos). 4

Consequêncas da superdspersão Como consequêncas de não levar em conta, no ajuste do modelo, a presença de superdspersão, destacamse: o Os erros padrões produzdos são ncorretos e subestmados; o Os resultados dos testes são ncorretos, podendo ndcar sgnfcânca estatístca de forma enganosa (testes super-otmstas ); o As alterações na devance assocadas à nclusão de termos ao modelo serão excessvamente elevadas, o que poderá nduzr à escolha de um modelo demasadamente complexo; o As nterpretações do modelo serão ncorretas e as demas estmatvas e predções terão precsão superor à realdade. 5

Modelos de regressão para dados de contagens na presença de superdspersão Algumas alternatvas apropradas para analsar dados na presença de superdspersão: o Utlzar alguma dstrbução alternatva (por exemplo a dstrbução bnomal negatva, como alternatva à dstrbução Posson, ou a beta-bnomal, como alternatva à bnomal); o Assumr alguma forma mas geral para a função de varânca, nclundo parâmetros adconas (modelos de quase-verossmlhança). o Incorporar um efeto (erro) aleatóro ao predtor lnear. 6

Dstrbução bnomal negatva Dzemos que Y é uma varável aleatóra com dstrbução bnomal negatva de parâmetros µ e k, denotada por Y BN (, k ) ~ µ, se sua função de probabldades é dada por: f Y ( y, k) ( k + y) y µ k ( k) y! ( µ + k) k Γ ; µ =, y = 0,1,2,...; k > 0; µ > 0. k + y Γ A esperança e a varânca de Y fcam dadas, respectvamente, por: E ( Y ) = µ ; Var( Y ) 2 µ = µ +. k A menos que k seja muto grande, a varânca de Y cresce mas rapdamente com relação à méda do que para a dstrbução Posson. 7

Se o parâmetro k for conhecdo, verfca-se que a dstrbução bnomal negatva pertence à famíla exponencal de dstrbuções e a teora de MLG se aplca; Se o parâmetro k for desconhecdo (stuação mas frequente), deve ser estmado va máxma verossmlhança juntamente com os demas parâmetros do modelo. Nota A dstrbução bnomal negatva é resultante do segunte processo em dos estágos: Se Y Y ( θ ) ~ Posson, onde os s θ também são varáves aleatóras, com θ Gama( k, λ ) ' 2 ~ Bn. neg( µ k), com E( y ) = µ = k / λ e Var( y ) µ + µ k, =. ~, então No R: Função glm.nb, pacote MASS. 8

Modelos de quase-verossmlhança Uma segunda forma de contornar o problema da superdspersão é propor alguma forma mas geral para a varânca, que permta acomodar adequadamente a superdspersão. Assm, podera-se consderar, a título de exemplo: o Var( x ) = φ π ( 1 π ) y m y o ( ), no caso da dstrbução bnomal; Var = φ µ, no caso da dstrbução Posson, x sendo φ o parâmetro de superdspersão, que não depende dos demas parâmetros do modelo. A ntrodução do parâmetro de superdspersão não produz uma dstrbução de probabldades para a resposta. Logo, não se tem uma verossmlhança válda; 9

Para problemas desse tpo, Wedderburn (1974) propôs a teora da quase-verossmlhança, baseada na função de quase-verossmlhança, que depende apenas da defnção da méda e da varânca da dstrbução condconal de y, e não de sua especfcação completa. Como alternatva à dstrbução de Posson, ao nvés de especfcar y x ~ Posson( µ ), o que mplca em ( y x ) =, sob a abordagem da quase-verossmlhança poderíamos propor apenas que ( y x ) = Var µ Var = φ µ. y x e ( ) E µ Nesse caso, a estmação dos parâmetros baseara-se na mnmzação do logartmo da função de quaseverossmlhança, defnda por: Q 1, dt. φ y µ ( µ y) = ( y t) V ( t) 10

O parâmetro de superdspersão é usualmente estmado com base na estatístca 2 Χ de Pearson: n ( y ˆ µ ) V ( µ ) ˆ 1 φ =, n p 1 ˆ = sendo V ( ) a função de varânca. Os estmadores baseados na quase-verossmlhança compartlham propredades semelhantes aos EMVs, sendo assntotcamente não vcados, normalmente dstrbuídos e consstentes. No R: Defnr famly=quasposson, famly=quasbnomal ou famly=quas na função glm. 11