O problema da superdispersão na análise de dados de contagens

Documentos relacionados
O problema da superdispersão na análise de dados de contagens

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

MODELOS DE REGRESSÃO PARAMÉTRICOS

Regressão Múltipla. Parte I: Modelo Geral e Estimação

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Associação entre duas variáveis quantitativas

Métodos Avançados em Epidemiologia

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

REGRESSÃO NÃO LINEAR 27/06/2017

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

3 A técnica de computação intensiva Bootstrap

Regressão Linear Simples. Frases. Roteiro

1. CORRELAÇÃO E REGRESSÃO LINEAR

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009

Modelagem da proporção de produtos defeituosos usando Modelo de Quase-verossimilhança

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Testes não-paramétricos

Análise de Regressão

2 Incerteza de medição

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

DELINEAMENTOS EXPERIMENTAIS

Prof. Lorí Viali, Dr.

4 Critérios para Avaliação dos Cenários

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

Exame final de Estatística 2ª Época - 24 de Junho de 2004

Análise de Regressão Linear Múltipla IV

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória

Cap. 11 Correlação e Regressão

2. VARIÁVEIS ALEATÓRIAS

Regressão Linear Simples by Estevam Martins

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

AULA EXTRA Análise de Regressão Logística

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MODELO DE ALOCAÇÃO DE RECURSOS ENTRE AS INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR: UMA APLICAÇÃO DOS MODELOS LINEARES GENERALIZADOS

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

5 Análise Conjunta da Média e da Dispersão

Estatística II Antonio Roque Aula 18. Regressão Linear

ANÁLISE DE VARIÂNCIA (ANOVA) CLÁSSICA: TÉCNICA ÚTIL, PORÉM RESTRITIVA!

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

Análise de Regressão Linear Múltipla VII

Estatística Espacial: Dados de Área

Estatística. 8 Teste de Aderência. UNESP FEG DPD Prof. Edgard

Delineamento Aleatorizado em Blocos Completos (DABC)

ANÁLISE DE VARIÂNCIA (ANOVA) CLÁSSICA: TÉCNICA ÚTIL, PORÉM RESTRITIVA!

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Análise Exploratória de Dados

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Análise de influência

TESTE DO QUI-QUADRADO - Ajustamento

Departamento de Produção, UNESP, Campus de Guaratinguetá Av. Ariberto Pereira da Cunha, 333, Guaratinguetá, S.P. CEP

Classificação de Padrões

Aplicação de um modelo simulado na formação de fábricas

Gabarito da Lista de Exercícios de Econometria I

MÉTODO DE ORIENTAÇÃO À MODELAGEM DE

ESTATÍSTICA APLICADA II ANO LECTIVO 2011/2012. Exame Final 26 de Julho de 2012

AEP FISCAL ESTATÍSTICA

Estatística I Licenciatura MAEG 2006/07

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Análise Multivariada

Reconhecimento Estatístico de Padrões

a média populacional do i-ésimo tratamento; o efeito do i-ésimo tratamento na variável dependente Y e mede o afastamento da média µ

Contabilometria. Aula 8 Regressão Linear Simples

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

4.1. Variáveis de Resposta

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

5 Implementação Procedimento de segmentação

Equações Simultâneas

Capítulo 2. Modelos de Regressão

MAE 317 Planejamento e Pesquisa I Profa. Júlia Maria Pavan Soler

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

Estatística Aplicada II CORRELAÇÃO. AULA 21 07/11/16 Prof a Lilian M. Lima Cunha

Teoria Elementar da Probabilidade

Avaliação da qualidade do ajuste

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

DISSERTAÇÃO DE MESTRADO

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

REGRESSÃO E CORRELAÇÃO

MODELAGEM DA SUPERDISPERSÃO EM DADOS POR UM MODELO LINEAR GENERALIZADO MISTO

Gráficos de Controle para Processos Autocorrelacionados

Modelagem conjunta da média e variância utilizando GLM

Regressão Simples. Parte III: Coeficiente de determinação, regressão na origem e método de máxima verossimilhança

Métodos Experimentais em Ciências Mecânicas

Transcrição:

O problema da superdspersão na análse de dados de contagens 1

Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão (φ ) é fxo e conhecdo; Em aplcações desse tpo, ao dentfcar a nadequação do ajuste (por exemplo, quando a devance resdual do modelo é muto superor a n p ), há dferentes possíves causas a serem consderadas: o A dstrbução proposta está errada; o Termos ou varáves explcatvas relevantes ausentes do predtor lnear; o Varáves explcatvas nserdas de forma nadequada no modelo; o Presença de outlers... 2

Independente da causa de desajuste, esse problema de ajuste mutas vezes está assocado a um maor grau de varação nos dados do que o predto pelo modelo, ou seja: o Var( x ) > π ( 1 π ) y m y o ( ), para a dstrbução bnomal; Var > µ, para a dstrbução Posson. x A presença de varação nos dados excedente à predta pelo modelo caracterza o fenômeno chamado superdspersão. A superdspersão pode ser dentfcada a partr da devance do modelo e da análse dos resíduos. 3

Causas de superdspersão Algumas causas de superdspersão estão relaconadas dretamente ao delneamento amostral (ou expermental). Em outras stuações, prever ou dentfcar uma causa para a superdspersão nem sempre é possível. Na sequênca são relaconadas possíves fontes de superdspersão. o Varabldade entre as undades observadas que não é acomodada pelo modelo; o Correlação não nula entre as respostas ndvduas (decorrente de fatores não observados ou não ncorporados ao modelo); o Os dados apresentam algum tpo de agregação (por exemplo, resultante do uso de delneamentos amostras em estágos múltplos). 4

Consequêncas da superdspersão Como consequêncas de não levar em conta, no ajuste do modelo, a presença de superdspersão, destacamse: o Os erros padrões produzdos são ncorretos e subestmados; o Os resultados dos testes são ncorretos, podendo ndcar sgnfcânca estatístca de forma enganosa (testes super-otmstas ); o As alterações na devance assocadas à nclusão de termos ao modelo serão excessvamente elevadas, o que poderá nduzr à escolha de um modelo demasadamente complexo; o As nterpretações do modelo serão ncorretas e as demas estmatvas e predções terão precsão superor à realdade. 5

Modelos de regressão para dados de contagens na presença de superdspersão Algumas alternatvas apropradas para analsar dados na presença de superdspersão: o Utlzar alguma dstrbução alternatva (por exemplo a dstrbução bnomal negatva, como alternatva à dstrbução Posson, ou a beta-bnomal, como alternatva à bnomal); o Assumr alguma forma mas geral para a função de varânca, nclundo parâmetros adconas (modelos de quase-verossmlhança). o Incorporar um efeto (erro) aleatóro ao predtor lnear. 6

Dstrbução bnomal negatva Dzemos que Y é uma varável aleatóra com dstrbução bnomal negatva de parâmetros µ e k, denotada por Y BN (, k ) ~ µ, se sua função de probabldades é dada por: f Y ( y, k) ( k + y) y µ k ( k) y! ( µ + k) k Γ ; µ =, y = 0,1,2,...; k > 0; µ > 0. k + y Γ A esperança e a varânca de Y fcam dadas, respectvamente, por: E ( Y ) = µ ; Var( Y ) 2 µ = µ +. k A menos que k seja muto grande, a varânca de Y cresce mas rapdamente com relação à méda do que para a dstrbução Posson. 7

Se o parâmetro k for conhecdo, verfca-se que a dstrbução bnomal negatva pertence à famíla exponencal de dstrbuções e a teora de MLG se aplca; Se o parâmetro k for desconhecdo (stuação mas frequente), deve ser estmado va máxma verossmlhança juntamente com os demas parâmetros do modelo. Nota A dstrbução bnomal negatva é resultante do segunte processo em dos estágos: Se Y Y ( θ ) ~ Posson, onde os s θ também são varáves aleatóras, com θ Gama( k, λ ) ' 2 ~ Bn. neg( µ k), com E( y ) = µ = k / λ e Var( y ) µ + µ k, =. ~, então No R: Função glm.nb, pacote MASS. 8

Modelos de quase-verossmlhança Uma segunda forma de contornar o problema da superdspersão é propor alguma forma mas geral para a varânca, que permta acomodar adequadamente a superdspersão. Assm, podera-se consderar, a título de exemplo: o Var( x ) = φ π ( 1 π ) y m y o ( ), no caso da dstrbução bnomal; Var = φ µ, no caso da dstrbução Posson, x sendo φ o parâmetro de superdspersão, que não depende dos demas parâmetros do modelo. A ntrodução do parâmetro de superdspersão não produz uma dstrbução de probabldades para a resposta. Logo, não se tem uma verossmlhança válda; 9

Para problemas desse tpo, Wedderburn (1974) propôs a teora da quase-verossmlhança, baseada na função de quase-verossmlhança, que depende apenas da defnção da méda e da varânca da dstrbução condconal de y, e não de sua especfcação completa. Como alternatva à dstrbução de Posson, ao nvés de especfcar y x ~ Posson( µ ), o que mplca em ( y x ) =, sob a abordagem da quase-verossmlhança poderíamos propor apenas que ( y x ) = Var µ Var = φ µ. y x e ( ) E µ Nesse caso, a estmação dos parâmetros baseara-se na mnmzação do logartmo da função de quaseverossmlhança, defnda por: Q 1, dt. φ y µ ( µ y) = ( y t) V ( t) 10

O parâmetro de superdspersão é usualmente estmado com base na estatístca 2 Χ de Pearson: n ( y ˆ µ ) V ( µ ) ˆ 1 φ =, n p 1 ˆ = sendo V ( ) a função de varânca. Os estmadores baseados na quase-verossmlhança compartlham propredades semelhantes aos EMVs, sendo assntotcamente não vcados, normalmente dstrbuídos e consstentes. No R: Defnr famly=quasposson, famly=quasbnomal ou famly=quas na função glm. 11