O problema da superdispersão na análise de dados de contagens

Documentos relacionados
O problema da superdispersão na análise de dados de contagens

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

MODELOS DE REGRESSÃO PARAMÉTRICOS

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Associação entre duas variáveis quantitativas

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

REGRESSÃO NÃO LINEAR 27/06/2017

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Métodos Avançados em Epidemiologia

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Análise de Regressão

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Prof. Lorí Viali, Dr.

2 Incerteza de medição

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

3 A técnica de computação intensiva Bootstrap

1. CORRELAÇÃO E REGRESSÃO LINEAR

Modelagem da proporção de produtos defeituosos usando Modelo de Quase-verossimilhança

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Regressão Linear Simples. Frases. Roteiro

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009

Testes não-paramétricos

Cap. 11 Correlação e Regressão

DELINEAMENTOS EXPERIMENTAIS

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Análise de influência

4 Critérios para Avaliação dos Cenários

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória

Análise de Regressão Linear Múltipla IV

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Exame final de Estatística 2ª Época - 24 de Junho de 2004

TESTE DO QUI-QUADRADO - Ajustamento

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Contabilometria. Aula 8 Regressão Linear Simples

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

ANÁLISE DE VARIÂNCIA (ANOVA) CLÁSSICA: TÉCNICA ÚTIL, PORÉM RESTRITIVA!

Regressão Simples. Parte III: Coeficiente de determinação, regressão na origem e método de máxima verossimilhança

ESTATÍSTICA APLICADA II ANO LECTIVO 2011/2012. Exame Final 26 de Julho de 2012

Reconhecimento Estatístico de Padrões

Classificação de Padrões

5 Análise Conjunta da Média e da Dispersão

Delineamento Aleatorizado em Blocos Completos (DABC)

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

ANÁLISE DE VARIÂNCIA (ANOVA) CLÁSSICA: TÉCNICA ÚTIL, PORÉM RESTRITIVA!

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

Análise de Regressão Linear Múltipla VII

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

Estatística II Antonio Roque Aula 18. Regressão Linear

2. VARIÁVEIS ALEATÓRIAS

MÉTODO DE ORIENTAÇÃO À MODELAGEM DE

Capítulo 2. Modelos de Regressão

Departamento de Produção, UNESP, Campus de Guaratinguetá Av. Ariberto Pereira da Cunha, 333, Guaratinguetá, S.P. CEP

AEP FISCAL ESTATÍSTICA

Regressão Linear Simples by Estevam Martins

AULA EXTRA Análise de Regressão Logística

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Estatística I Licenciatura MAEG 2006/07

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Análise Exploratória de Dados

DISSERTAÇÃO DE MESTRADO

MODELO DE ALOCAÇÃO DE RECURSOS ENTRE AS INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR: UMA APLICAÇÃO DOS MODELOS LINEARES GENERALIZADOS

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Processamento de Sinal

Estatística Espacial: Dados de Área

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

PRESSUPOSTOS DO MODELO DE REGRESSÃO

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

REGRESSÃO APLICADA À DADOS FLORESTAIS

MAE 317 Planejamento e Pesquisa I Profa. Júlia Maria Pavan Soler

Avaliação da qualidade do ajuste

Modelo de Regressão Simples

6 Análises de probabilidade de ruptura de um talude

Estatística. 8 Teste de Aderência. UNESP FEG DPD Prof. Edgard

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

Algarismos Significativos Propagação de Erros ou Desvios

4.1. Variáveis de Resposta

Tipo tratamento idade Tipo tratamento sexo

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Econometria II. Painel (1ª Diferenças, Efeitos Fixos e escolha entre estimadores de painel)

Gráficos de Controle para Processos Autocorrelacionados

Elementos de Estatística e Probabilidades II

MODELAGEM DA SUPERDISPERSÃO EM DADOS POR UM MODELO LINEAR GENERALIZADO MISTO

Análise Multivariada

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

5 Implementação Procedimento de segmentação

8.16. Experimentos Fatoriais e o Fatorial Fracionado

Transcrição:

O problema da superdspersão na análse de dados de contagens 1

Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão (φ ) é fxo e conhecdo; Em aplcações desse tpo, ao dentfcar a nadequação do ajuste (com base na análse de resíduos, ou numa devance resdual muto superor a n p ), dferentes causas podem ser consderadas: o A dstrbução proposta está errada; o Covaráves mportantes não estão presentes predtor lnear; o Covaráves nserdas de forma nadequada no modelo; o Presença de outlers... 2

Independente da causa de desajuste, esse problema de ajuste mutas vezes está assocado a um maor grau de varação nos dados do que o predto pelo modelo, ou seja: o Var( x ) > π ( 1 π ) y m y o ( ), para a dstrbução bnomal; Var > µ, para a dstrbução Posson. x A presença de varação nos dados excedente à predta pelo modelo caracterza o fenômeno chamado superdspersão. 3

Causas de superdspersão Algumas causas de superdspersão estão relaconadas dretamente ao delneamento amostral (ou expermental). Em outras stuações, prever ou dentfcar uma causa para a superdspersão nem sempre é possível. Na sequênca são relaconadas possíves fontes de superdspersão. o Varabldade entre as undades observadas que não é acomodada pelo modelo; o Correlação não nula entre as respostas ndvduas (decorrente de fatores não observados ou não ncorporados ao modelo); o Os dados apresentam algum tpo de agregação (por exemplo, resultante do uso de delneamentos amostras em estágos múltplos). 4

Consequêncas da superdspersão Como consequêncas de não levar em conta, no ajuste do modelo, a presença de superdspersão, destacamse: o Embora os estmadores dos parâmetros do modelo anda sejam consstentes, os erros padrões produzdos são ncorretos e subestmados; o Os resultados dos testes são ncorretos, podendo ndcar sgnfcânca estatístca de forma enganosa (testes super-otmstas ); o As alterações na devance assocadas à nclusão de termos ao modelo serão excessvamente elevadas, o que poderá nduzr à escolha de um modelo demasadamente complexo; o As nterpretações do modelo serão ncorretas e as demas estmatvas e predções terão precsão superor à realdade. 5

Modelos de regressão para dados de contagens na presença de superdspersão Algumas alternatvas apropradas para analsar dados na presença de superdspersão: o Utlzar alguma dstrbução alternatva (por exemplo a dstrbução bnomal negatva, como alternatva à dstrbução Posson, ou a beta-bnomal, como alternatva à bnomal); o Assumr alguma forma mas geral para a função de varânca, nclundo parâmetros adconas (modelos de quase-verossmlhança). o Incorporar um efeto aleatóro ao predtor lnear. 6

Dstrbução bnomal negatva Dzemos que Y é uma varável aleatóra com dstrbução bnomal negatva de parâmetros µ e k, denotada por Y BN (, k ) ~ µ, se sua função de probabldades é dada por: f Y ( y, k) ( k + y) y µ k ( k) y! ( µ + k) k Γ ; µ =, y = 0,1,2,...; k > 0; µ > 0. k + y Γ A esperança e a varânca de Y fcam dadas, respectvamente, por: E ( Y ) = µ ; Var( Y ) 2 µ = µ +. k A menos que k seja muto grande, a varânca de Y cresce mas rapdamente em relação à méda do que para a dstrbução Posson. 7

Se o parâmetro k for conhecdo, verfca-se que a dstrbução bnomal negatva pertence à famíla exponencal de dstrbuções e a teora de MLG se aplca; Se o parâmetro k for desconhecdo (stuação mas frequente), deve ser estmado va máxma verossmlhança juntamente com os demas parâmetros do modelo. Nota A dstrbução bnomal negatva é resultante do segunte processo em dos estágos: Se Y Y ( θ ) θ ~ Posson, onde os s θ também são varáves aleatóras, com θ Gama( k, λ ) 2 ~ Bn. neg( µ k), com E( y ) = µ = k / λ e Var( y ) µ + µ k, ' =. ~, então No R: Função glm.nb, pacote MASS. 8

Modelos de quase-verossmlhança Uma segunda forma de contornar o problema da superdspersão é propor alguma forma mas geral para a varânca, que permta acomodar adequadamente a varação extra. A abordagem de quase-verossmlhança (Wedderburn, 1974) não requer a especfcação de um modelo probablístco, mas apenas da méda e varânca (condconas) da dstrbução: g [ E( x )] = xβ; y ( y x ) = φv ( ), Var µ sendo V ( ) a função de varânca. A título de exemplo, como alternatva à dstrbução de Posson, ao nvés de especfcar x ~ Posson( ), o que mplca em ( y x ) = y µ Var µ, sob a abordagem da quase-verossmlhança 2 poderíamos propor E ( y x ) = µ e Var ( y x ) = φ µ. Ou anda, E ( y x ) = µ e Var ( ) = φ µ y x. 9

Nesse caso, a estmação dos parâmetros baseara-se na mnmzação do logartmo da função de quaseverossmlhança, defnda por: Q ( µ y) ( y t) V ( t) 1 µ, = φ d y t. As dervadas parcas da função de quase-verossmlhança, em relação aos parâmetros do modelo, produzem as funções quase-score, a partr das quas são obtdas as estmatvas de máxma quaseverossmlhança. O parâmetro de dspersão, nesses casos, é usualmente estmado com base na estatístca 2 Χ de Pearson: n ( y ˆ µ ) V ( µ ) ˆ 1 φ =. n p 1 ˆ = 10

Os estmadores de máxma quase-verossmlhança ( βˆ QL ) compartlham propredades semelhantes aos EMVs, sendo assntotcamente não vcados, consstentes e normalmente dstrbuídos: β ˆ QL a ~ N ( β, Var( β ˆ )), QL sendo com µ = g 1 ( x β ) e ω = Var( x ) 1 µ = 1 = 1 1 ( ˆ n n n β ) x x x x ω x x, Var = QL µ = 1 y No R: Defnr famly=quasposson, famly=quasbnomal ou famly=quas na função glm. 11