Estudo acerca do coeficiente de determinação nos modelos lineares e algumas generalizações.

Documentos relacionados
O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens

MODELOS DE REGRESSÃO PARAMÉTRICOS

Associação entre duas variáveis quantitativas

Regressão Múltipla. Parte I: Modelo Geral e Estimação

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Prof. Lorí Viali, Dr.

Métodos Avançados em Epidemiologia

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

REGRESSÃO NÃO LINEAR 27/06/2017

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

4 Critérios para Avaliação dos Cenários

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Estatística II Antonio Roque Aula 18. Regressão Linear

Cap. 11 Correlação e Regressão

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Análise de Regressão

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

CORRELAÇÃO E REGRESSÃO

Prof. Lorí Viali, Dr.

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

1. CORRELAÇÃO E REGRESSÃO LINEAR

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Prof. Lorí Viali, Dr.

3 A técnica de computação intensiva Bootstrap

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

Estatística I Licenciatura MAEG 2006/07

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

Regressão Linear Simples by Estevam Martins

Contabilometria. Aula 8 Regressão Linear Simples

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Classificação de Padrões

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Análise de Regressão Linear Múltipla IV

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

Capítulo 2. Modelos de Regressão

AULA EXTRA Análise de Regressão Logística

PRESSUPOSTOS DO MODELO DE REGRESSÃO

DELINEAMENTOS EXPERIMENTAIS

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Análise Exploratória de Dados

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Algarismos Significativos Propagação de Erros ou Desvios

2 Incerteza de medição

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Regressão Linear Simples. Frases. Roteiro

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Gráficos de Controle para Processos Autocorrelacionados

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

Análise de influência

7 - Distribuição de Freqüências

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Cap. IV Análise estatística de incertezas aleatórias

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

SELEÇÃO DE MODELOS VOLUMÉTRICOS PARA CLONES DE EUCALYPTUS SPP., NO PÓLO GESSEIRO DO ARARIPE

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

UM PROBLEMA ECONOMÉTRICO NO USO DE VARIÁVEIS CLIMÁTICAS EM FUNÇÕES DE PRODUÇÃO AJUSTADAS A DADOS EXPERIMENTAIS

Testes não-paramétricos

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Análise de Regressão Linear Múltipla VII

Análise de Variância. Comparação de duas ou mais médias

AEP FISCAL ESTATÍSTICA

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória

Estatística Espacial: Dados de Área

Tipo tratamento idade Tipo tratamento sexo

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

Teoria Elementar da Probabilidade

Avaliação do Modelo. Avaliação de Modelos. Métricas para avaliação de desempenho. Métricas para avaliação de desempenho 31/05/2017

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

UNIVERSIDADE NOVA DE LISBOA Faculdade de Economia Análise de Dados e Probabilidade 2º Semestre 2008/2009 Exame Final 1ª Época. Grupo I (4 Valores)

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

GARANTIA DE EXCELENTE INTERCAMBIALIDADE E REDUÇÃO DE CUSTOS ATRAVÉS DA ANÁLISE ESTATÍSTICA DE TOLERÂNCIAS

5 Implementação Procedimento de segmentação

REGRESSÃO E CORRELAÇÃO

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

(c) 0,5; 9,5; -10,5; -0,5; 12,3; 2,3; etc. Ocorre desvio alto para o indivíduo 19 (-19,5) X (idade da casa)

7 Tratamento dos Dados

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará

Variável discreta: X = número de divórcios por indivíduo

CAPÍTULO 2 - Estatística Descritiva

Transcrição:

Gsele Nascmento Patríca Ferrera de Araújo Estudo acerca do coefcente de determnação nos modelos lneares e algumas generalzações. rabalho de conclusão de curso apresentado para a dscplna Laboratóro de Estatístca II do curso Bacharelado em Estatístca do Setor de Cêncas Exatas, da Unversdade Federal do Paraná. Orentador: Prof. Fernando L. Pérez Curtba P Junho 009

ESUDO ACECA DO COEFICIENE DE DEEMINAÇÃO NOS MODELOS LINEAES E ALGUMAS GENEALIZAÇÕES Alunas: Gsele Nascmento e Patríca Ferrera de Araújo Departamento de Estatístca Unversdade Federal do Paraná ESUMO Nos modelos de regressão uma das meddas da qualdade do ajuste é o chamado coefcente de determnação ou ². A defnção mas conhecda desta medda é especfca dos modelos de regressão lneares com resposta Gaussana. Com o desenvolvmento de novos modelos de regressão, como os modelos lneares generalzados e outros, faz-se necessáro procurar formas mas geras de defnr o ². Estudaremos duas propostas de generalzar o ² a modelos de regressão não gaussanos, os chamados ² de Nagelkerke e o ² de Kullback Lebler. Mostraremos a utlzação destes coefcentes de qualdade do ajuste através de três exemplos. Palavras-chave: Modelos de regressão, Coefcente de determnação, Modelos lneares generalzados, Modelos de regressão famíla exponencal.

Sumáro 1. INODUÇÃO... 4. EXENSÕES DO ²... 10.1 ² DE NAGELKEKE... 10. ² DE KULLBACK - LEIBLE... 1..1. Modelos de regressão na famíla exponencal de densdades... 1... Dssmlardade de Kullback-Lebler... 13 3. EXEMPLOS ILUSAIVOS... 17 3.1. EGESSÃO LOGÍSICA... 17 3.. EGESSÃO POISSON... 18 3.3. EGESSÃO GAMA... 18 4. DISCUSSÃO... 19 5. BIBLIOGAFIA... 1 6. ANEXOS... 6.1 COMANDOS DO...

1. Introdução Este trabalho tem por objetvo estudar propredades mportantes do coefcente de determnação ² no contexto dos modelos lneares assm como algumas das generalzações a outros modelos de regressão. Comecemos então pela defnção de coefcente de determnação ² que é uma medda de bondade do ajuste do modelo seleconado e também uma medda de precsão na predção, tanto de novas observações quanto da méda de novas observações, do modelo de regressão lnear. Uma medda efcaz de calcular a relação entre duas varáves aleatóras é o coefcente de correlação e o coefcente de determnação é justamente a correlação ao quadrado entre as observações y e os valores predtos pelo modelo µˆ. Defndo como: { y,µ} = corr ˆ, (1) ou smplesmente n ( y µ ˆ ) = 1 = 1, () n ( y y) = 1 onde y são observações ndependentes, µˆ os correspondentes valores predtos pelo modelo de regressão lnear normal y =β +β x +... +β x + ε (3) 0 1 1 P p e y o correspondente valor predto pelo modelo y =β 0 +ε (4) Nestes modelos ε,...,εn ~ N( 0,1 ), ndependentes são conhecdos como erros aleatóros. Lembremos que E(y )=µ =β +β x +... +β x e ˆ =β ˆ = y, no caso do modelo (4). 0 1 1 p p µ 0 4

Podemos afrmar que ² é uma medda de proporção que a soma de quadrados dos desvos de cada y em relação a y pode ser explcada pelas covaráves x,...,x 1 n. Então, o ² é uma medda de bondade do ajuste do modelo (3), nclundo as covaráves, em relação do modelo (4), no qual nenhuma das covaráves é consderada. Assm para conjunto de dados com varável dependente, valor de ² perto de 1 reflete o acréscmo na capacdade de predção do modelo de regressão, gnorando a perda de nformação devdo à possível perda de graus de lberdade. Por exemplo, os dados mostrados da Fgura 1 (a) foram gerados pelo modelo y = + 4x + ε satsfazendo que var { y } = 9 e cada ε ~ N( 0,1), = 1,..., 0. As estmatvas do modelo ajustado são quase perfetas, como pode ser observado a segur, assm como o valor do coefcente de determnação = 0,9655. Na outra stuação consderada, agora na Fgura 1 (b), em casos onde não faz sentdo um modelo de regressão o ² reflete sso, o valor deste coefcente é = 0,007684, ndcando ndependênca entre a varável explcatva e a varável resposta. O modelo estmado para os dados mostrados na Fgura 1 (a) é yˆ = 1.6358+ 4.1386x e para os dados mostrados na Fgura 1 (b) é yˆ = 37.367+ 0,130x. O coefcente de determnação satsfaz algumas propredades nteressantes. Uma delas nos permte melhor nterpretar o ², esta propredade nos dz que 0 1. Podemos perceber que = 0 somente quando E { y} = y { y } =µ = β0 E, µ =β ˆ ˆ 0 = y, logo (y µ) ˆ = (y y n = 1, como é o caso do modelo (4), nesta stuação n ) = 1 e = 1 n = 1 n = 1 (y y) (y y) = 0 5

Fgura 1: Dferentes modelos de regressão lnear smples, (a) ajuste perfeto, (b) modelo errado, nesta stuação não faz sentdo um modelo de regressão. Interpretamos então que 0 o modelo não é aproprado para explcar a varável reposta através das varáves explcatvas seleconadas, sgnfcando que ² é uma medda da utldade dos outros termos além do β 0 no modelo. Para provar que o ² é lmtado superormente por 1 observaremos prmero que podemos escrever: = n = 1 n = 1 (µ ˆ y). (y y) Assm, para provar que 1 devemos provar que ˆ β X Y Y Y. Utlzando as expressões dos estmadores do modelo lnear, temos que: βˆ X Y = Y X(X X) 1 X Y = Y HY, onde H = X(X X) 1 X é uma matrz smétrca e dempotente, ou seja, H H = HH = H. Observemos que Y Y β ˆ X Y = Y IY Y HY = Y (I H)Y, o objetvo agora é demonstrar que Y (I H)Y é uma forma quadrátca postva. Para sso devemos provar que I H é uma matrz defnda postva. Sabemos que a matrz H é smétrca e uma condção necessára e sufcente para uma matrz smétrca ser defnda postva é que e- xsta uma matrz não sngular P, tal que, I H = P P (ao, 1973). 6

Nesta stuação (I H)(I H) = (I H) (I H) = (I H), logo I H além de dempotente é defnda postva, portanto: Y (I H)Y 0, ou seja, Y (I H)Y é uma forma quadrátca defnda postva, logo Y Y βˆ X Y, conclundose que 1. Um modelo cujo ajuste seja perfeto mplcara que µˆ = y, portanto (y µ ˆ ) 0 e n = 1 = conseqüentemente = 1 sgnfcando que quanto mas próxmo de 1 estvasse o valor do coefcente de determnação melhor o ajuste aos dados do modelo proposto. É mportante notar que altos valores de ² não necessaramente mplcam que o modelo de regressão está bem ajustado. Adconando varáves regressoras podemos ncrementar o valor de ² sem mportar se as novas varáves regressoras contrbuem de fato para o modelo. Então é possível que alguns modelos tenham grandes valores de ² e sua qualdade seja rum para estmação ou predção de novas observações. x1 y1 x y x3 y3 x4 y4 10 8.04 10 9.14 10 7.46 8 6.58 8 6.95 8 8.14 8 6.77 8 5.76 13 7.58 13 8.74 13 1.74 8 7.71 9 8.81 9 8.77 9 7.11 8 8.84 11 8.33 11 9.6 11 7.81 8 8.47 14 9.96 14 8.10 14 8.84 8 7.04 6 7.4 6 6.13 6 6.08 8 5.5 4 4.6 4 3.10 4 5.39 19 1.50 1 10.84 1 9.13 1 8.15 8 5.56 7 4.8 7 7.6 7 6.4 8 7.91 5 5.68 5 4.74 5 5.73 8 6.89 méda 9 7.5 9 7.5 9 7.5 9 7.5 varânca 11 4.1 11 4,1 11 4,1 11 4,1 correlação 0.8 0.8 0.8 0.8 abela 1: Quadro conjunto de dados Anscombe e meddas descrtvas assm como correlação entre x e y em cada caso. Podemos vsualzar sto através dos exemplos em Anscombe (1973). Nesse trabalho o autor apresentou quatro conjuntos de dados com as mesmas médas, varâncas e correlação entre as varáves respostas e explcatva. Estes dados são reproduzdos na abela 1. 7

Algumas estatístcas descrtvas mportantes destes dados, como méda, varânca e correlação entre x e y e outras, assumem os mesmos valores e, portanto, as retas de regressão também concdem. Outras estatístcas descrtvas que não nfluencam na estmação da reta de regressão não concdem, como é o caso da medana e os valores extremos. As estmatvas do modelo de regressão y1 = β0 +β1x1 +ε,ε ~ N( 0,1) aparecem na abela e são comuns a todos os outros modelos, ou seja, as estmatvas dos modelos de regressão relaconados os pares de varáves (x1, y1 ),(x, y ),(x3, y3 )e(x4, y4 ) concdem, sendo que o = 0,665 e o desvo padrão dos resíduos é 1,370. ambém são comuns os resultados da análse de varânca da regressão. Desvo Coefcentes Estmatvas padrão t obs (P> t obs ) Intercepto 3.0001 11.147.6670 0.057 x1 0.5001 0.1179 4.410 0.001 abela : abela de análse de regressão No entanto, observando a Fgura fca claro que smplesmente com o valor ² não sera possível perceber que nos conjuntos de dados N e N 4 um modelo de regressão lnear não faz sentdo, no conjunto N devemos transformar a varável explcatva para obtermos um melhor ajuste e no conjunto de dados N 4 não exste relação alguma entre a varável explcatva e resposta. No caso do conjunto de dados N 3 exste uma observação muto dferente das outras que atrapalha completamente e que somente no conjunto de dados N 1 exste uma relação lnear entre a covarável e a resposta. Uma outra propredade do ² é que ele é crescente conforme aumenta o número de varáves explcatvas, mesmo que as novas varáves acrescdas nada tenham a ver com a resposta. Devemos lembrar que o procedmento de estmação mplca na mnmzação da função no espaço de parâmetros da regressão, sto é, em P. n (y xβ) = 1 8

Acontece que se aumentamos em uma dmensão deste espaço, pela nclusão de uma varável explcatva ao modelo, a estmação no espaço de dmensão p sera uma mnmzação restrta no espaço de dmensão p+1, e sabemos por cálculo que mínmos restrtos são maores do que mínmos absolutos. Logo o ² obtdo no modelo de ordem p é lgeramente menor do que o ² obtdo no modelo de ordem p+1. Fgura : Gráfco de dspersão e reta de regressão estmada para cada um dos conjuntos de dados apresentados na abela 1. Esta propredade nos dz que adconando nfntas covaráves ao modelo, mesmo que não tenham nada a ver com o problema em questão, podemos artfcalmente melhorar o coefcente de determnação. Por este motvo o ² serve para medr a qualdade do ajuste, mas não é o mas aproprado para comparar modelos, com esse objetvo é recomendado o ² ajustado, defndo com: e o Crtéro de Akake (Akake, 1974). n 1 adj = 1 ( 1 ) (6) n p 1 9

. Extensões do ².1 ² DE NAGELKEKE Este coefcente de determnação fo estudado em dversos trabalhos durante os anos 80 e 90, mas fo no artgo de Nagelkerke(1991) que estudaram-se suas propredades e onde fo a- presentado de uma manera mas geral, por esse motvo se atrbu o nome Nagelkerke. No artgo referdo é dscutda uma generalzação do coefcente de determnação ² para modelos de regressão geras e uma modfcação da defnção deste novo permte que se proponha para modelos dscretos. A utlzação do ², o coefcente de determnação, também chamado de coefcente de correlação múltpla, está bem estabelecdo na análse clássca (ao, 1973). A sua defnção como a proporção de varânca "explcada" pelo modelo de regressão faz com que seja útl como uma medda de sucesso da predção da varável dependente a partr das varáves ndependentes. É convenente generalzar a defnção de ² para modelos mas geras, para os quas o conceto da varânca resdual não pode ser faclmente defndo e a máxma verossmlhança é o crtéro de ajuste. A segunte generalzação fo proposta por Cox & Snell (1989, pp. 08-9) e, aparentemente ndependente, por Magee (1990), mas havam sdo sugerdos anterormente para modelos de resposta bnára por Maddala (1983), { l(β) ˆ l( )} log ( 1 ) = 0 ( 1a ) n ou / { l(β) ˆ l( 0 )} = 1 { L( 0 )/ L(β) } n = 1 exp n ( 1b ) ˆ onde, l( β ˆ ) =log L( β ˆ ) e l( 0 ) = log L( 0 ) ndcam a log da verossmlhança do modelo ajustado e do modelo nulo, respectvamente. O ² geral defndo em (1b) fo estudado por 10

Nalgelkerke (1991), como menconamos, e por esse motvo chama-se de de Nagelkerke e escreve-se como N. É possível estabelecer que o ² N, tem as seguntes propredades: 1. É coerente com o ² clássco, que é a defnção geral aplcada, por exemplo, na regressão lnear. Isto sgnfca que se a dstrbução da varável resposta é normal e o modelo de regressão lnear, então, o N concde com o clássco.. É coerente com os estmadores de máxma verossmlhança dos parâmetros do modelo que maxmzam o ², ou seja, o N depende das estmatvas de máxma verossmlhança dos parâmetros do modelo. 3. É assntótcamente ndependente do tamanho da amostra n. 4. Interpreta-se como a proporção da varação explcada, ou seja, 1-² N, tem a nterpretação da proporção não explcada da varação. A varação deve ser entendda como qualquer medda de dstânca. 5. É admensonal, ou seja, não depende da undade de medda utlzada. Para esclarecer vamos consderar o modelo M 1 = M * M 3, por exemplo, o modelo M 1 contendo apenas a covarável x 1, por exemplo, uma constante, enquanto M contém x e x 1 e M 3 contém x 1, x e x 3. Se.1 ndca o ² N do modelo M em relação à M 1 etc..., então: ( 1 )= ( 1 )( ) ( ) 3.1 3. 1.1 Em outras palavras, a proporção de varação não explcada pelo modelo M 3 relatvamente ao modelo M 1 é o produto da proporção não explcada por M 3 em relação a M e a proporção não explcada por M em relação a M 1. No entanto, o ² N assm defndo atnge um valor máxmo teórco de menos de 1 para modelos dscretos, ou seja, modelos cuja varável resposta é dscreta. É o caso de stuações partculares mportantes nos modelos lneares generalzados como os modelos de regressão logístca e log-lnear nos quas as dstrbuções das varáves respostas são Bernoull ou Bnomal e Posson, respectvamente. Este máxmo é gual a: max( )= 1 exp n 1 / n { l( 0 )} = 1 L( 0 ) 11

Para a regressão logístca, com 50% de Y = 1 e 50% de Y = 0 observações, este máxmo é gual a 0.75. Este máxmo ocorre quando todas as observações são predtas com probabldade máxma, sto é P{ Y=1 } = 1 para as observações com Y = 1, e Pr{ Y=1} = 0 para Y = 0 observações. Isto é claramente nacetável para um coefcente ². Fo proposto, portanto, de redefnr como ² N : = /max( ) As propredades 1,, 3 e 5 são automatcamente satsfetas, segundo afrma Nagelkerke(1991). Para este mesmo ² N, a propredade 4 é mas dfícl de estabelecer. No entanto, pode afrmar-se que: log { 1 max( )} log{ 1 max ( )} = log( ) ( 4 ).1 3. 1.1 e desta forma, o crtéro na propredade 4 também pode ser estabelecdo para manter o ² N corrgdo pelo seu máxmo teórco.. ² DE KULLBACK - LEIBLE Como menconado, para modelos de regressão lnear o coefcente de determnação ² é amplamente utlzado, pos é uma boa medda do ajuste cujas utldades e lmtações são conhecdas. A aplcação desta medda para modelos não lneares geralmente conduz a uma medda que pode estar fora do ntervalo [0,1] e dmnu quando regressoras são adconadas. Algumas alternatvas para ² foram especalmente construídas para modelos não lneares usando uma varedade de métodos. Aqu estudaremos mas uma proposta de generalzação deste coefcente, nesta vez utlzará a chamada dssmlardade Kullback-Lebler e mostraremos as expressões correspondentes quando a varável resposta pertence à famíla exponencal de dstrbuções...1. Modelos de regressão na famíla exponencal de densdades Suponhamos que a varável dependente Y tem uma dstrbução na famíla exponencal de densdades da forma: 1

f0(y; θ ) = exp[ θy b( θ )] h( y) onde, θ é o parâmetro canônco, b (θ) é a função normalzadora e h(y) é uma função conhecda. Dferentes b( θ) correspondem a dferentes dstrbuções. A méda de Y, denotada µ é gual a dervada b' (θ), e pode ser demonstrado que é uma função monótona em θ. egressoras são ntroduzdas pela especfcação de µ como uma função do predtor lnear η=x β, onde x é o vetor de regressoras e β é um desconhecdo vetor de parâmetros. Modelos obtdos por dversas escolhas de b (θ) e funções de η são chamados modelos lneares generalzados. A função que relacona a méda µ com o predtor lnear η=x β é chamada de função de lgação e é tal que g(µ)=η. O vetor de parâmetros β é estmado por máxma verossmlhança, denotando o estmador como βˆ, baseado na amostra ndependente {(y,x ), = 1,...,n}, com f (y ) = f (y ) para µ = µ j. A estmatva da méda para uma observação com regressor x é denotada por µ ˆ =µ(x' β) ˆ. Por tudo assummos que o modelo nclu um termo constante. A estmatva da méda da resposta quando o modelo assume somente um termo constante é denotada por ˆµ 0. µ µ j... Dssmlardade de Kullback-Lebler A medda padrão da nformação contda nas observações em uma densdade f ( y) é a nformação esperada ou entropa Shannon s, defnda como E[ log (f(y))]. Esta é a base para medr o nível de dscrepânca entre duas densdades ou dvergênca de Kullback-Leber, porposta em Kullback e Lebler(1959). Consdere duas densdades, denotada por f µ1 (y) e (y), parametrzadas apenas pela méda. Neste caso, a fórmula geral para a dssmlardade ou dvergênca de Kullback-Lebler (KL) é K(µ, µ ) E µ log [f µ (y) / fµ (y)], 1 (5) 1 quando um segundo fator é adconado por convenênca, e E µ denota expectatva tomada 1 com relação à densdade (y). K(µ, µ ) é a nformação de µ 1 no que dz respeto a fµ 1 1 1 f µ 13

µ e é uma medda de quão próxmo µ 1 está de µ. O termo dvergênca, em vez de dstânca é usado porque não satsfazem em geral a smetra trangular e propredades de uma dstânca medda. Contudo, K(µ 1,µ ) 0 com gualdade se f. µ f 1 µ Além de f y f µ1 (y) e f µ (y) nós também consderamos a densdade (y), para os quas a méda é gual ao conjunto realzado y. Em seguda, o Kullback-Lebler (KL) dvergênca K(y, µ) pode ser defndo de manera análoga a () K(y, µ) E y log [f y (y) / fµ (y)] = f y(y) log [f y (y) / fµ (y)]dy (3) A varável aleatóra K(y, µ) é uma medda do desvo da méda µ. Para a famíla exponencal, Haste (1987) e Vos (1991) mostram que a expectatva em (3) ca fora e: K(y, µ) log [f (y) fµ (y)] y / No modelo estmado com n ndvíduos o estmador Kullback-Lebler (KL) da dvergênca entre n-vetores y e µˆ é gual ao dobro da dferença entre o valor máxmo do log da verossmlhança possível, sto é, o log da verossmlhança em um modelo completo com o maor número de parâmetros como observações pelo modelo sob nvestgação em l(ˆ µ, y) : n l(y ', y), e o log da verossmlhança alcançado K(y, µ)= ˆ [ logf y (y ) logfµ ˆ (y )] = [l(y; y) l(µ; ˆ y)] (4) = 1 Dexe ˆµ 0 denotar o n-vetor com entradas ˆµ 0, o ajuste da máxma verossmlhança estma méda da constante do modelo somente. Nós nterpretamos K(y, µ ˆ0 ) como a estmatva das nformações, de dados sobre a amostra y potencalmente recuperável pela nclusão de regressoras. É a dferença entre a nformação contda na amostra de dados sobre y, e os estmados usando nformações ˆµ 0, a melhor estmatva pontual quando os dados sobre regressoras não são utlzadas, onde a nformação é medda pela expectatva tomar no que dz respeto ao valor observado y. Ao escolher ˆµ 0 para ser o MLE, K(y, µ ˆ 0 ) é mnmzado. O ² proposto é a redução proporconal na presente potencalmente recuperável alcançado pelo modelo de regressão: = 1 K(Y, µ) ˆ / K(Y, µ ˆ ) (5) KL 0 14

Esta medda pode ser utlzada para ajuste de médas obtdas por qualquer método de estmação.na segunte proposção que restrngem a atenção para estmatva ML (que mnmza K ( y, ˆ) µ ). Proposção : Para ML estmatvas dos modelos de regressão da famíla exponencal baseada na densdade (1), defndo em (5) tem as seguntes propredades: KL 1. KL não é aumentado quando regressoras são adconadas.. 0 KL 1. 3. KL é um escalar múltplo da razão da verossmlhança teste para a sgnfcânca conjunta da varável explcatva. 4. guala a razão de verossmlhança índce 1 l( µ; ˆ y) / l(µ ˆ 0; y) se e somente se l(y; y)= 0. KL 5. KL medda da redução proporconal na recuperável nformação devdo à nclusão de regressores, onde a nformação é medda pela estmatva Kullback-Lebler dvergênca (4). Propredade 4 é de nteresse, tal como o índce da razão de verossmlhança, que mede a redução proporconal no log da verossmllhança devdo à nclusão de regressoras, por vezes é proposto como uma medda pseudo ² geral. Igualmente ocorre para o modelo Bernoull, mas em geral o índce da razão de verossmlhança dfere e, para outros modelos dscretos a varável dependente, é mas pessmsta no que se refere à contrbução de regressores, como l(y; y) 0. No caso contínuo, grandes valores (postvos ou negatvos) do índce da razão de verossmlhança podem ocorrer se l( µ ˆ 0 ; y) é perto de zero (postvo ou negatvo). Em contrapartda teórca para KL será sempre lmtada por zero e um. A últma propredade defne uma nformação. Um aspecto nteressante é que a expressão de K ( y, ˆ µ ) em (4) equvale a KL defnção devance. Portanto resdual. KL pode ser nterpretado como sendo baseada na devance A tabela a segur lsta as expressões para o KL em dversos modelos de regressão generalzados: normal, Bernoull, bnomal, Posson, geométrca, exponencal, gama e normal nversa. 15

16

3. Exemplos Ilustratvos 3.1. EGESSÃO LOGÍSICA Utlzaremos como prmero exemplo dados de um estudo caso-controle sobre câncer de esôfago (Gmeno & Souza, 1995). Otenta e cnco casos de câncer de esôfago foram comparados com 9 controles hosptalares, classfcados segundo sexo, dade e os hábtos de beber e fumar. O hábto de beber fo consderado fator de rsco de prncpal nteresse. Os dados utlzados no estudo de referênca foram reproduzdos na abela 3.1. Nela observamos que a varável dade fo dvdda em dos grupos: menor, os menores de 57 anos nclusve e maor os maores de 57 anos de dade. abela 3.1 Dados de um estudo caso-controle sobre câncer de esôfago (Gmeno & Souza, 1995). Sexo Idade Bebe Fuma Caso Controle otal Femnno menor N N 3 30 33 Femnno menor N S 0 15 15 Femnno menor S N 0 14 14 Femnno menor S S 5 13 18 Femnno maor N N 41 43 Femnno maor N S 3 8 11 Femnno maor S N 0 6 6 Femnno maor S S 3 5 Masculno menor N N 0 9 9 Masculno menor N S 1 14 Masculno menor S N 1 8 9 Masculno menor S S 40 58 98 Masculno maor N N 0 6 6 Masculno maor N S 0 19 19 Masculno maor S N 0 4 4 Masculno maor S S 6 47 73 Um prmero ajuste do modelo de regressão logístca fo realzado com todas as varáves explcatvas: sexo, dade, bebe e fuma. Obteve-se que somente a varável bebe e fuma foram sgnfcatvas. Além dsso, verfcou-se, através do método AIC, que a melhor função de lgação é a complementar log-log. Após achamos o melhor modelo calculamos o KL, utlzandose os resultados mostrados a segur: N e N = 0,9714 e KL = 0,6976. 17

3.. EGESSÃO POISSON A tabela 3. (exemplo 6, pág. 1, lvro de Clarce G,B. Demétro et all.) mostra os dados referentes à contagem de partículas de vírus para 5 dluções dferentes, sendo que foram usadas 4 repetções para as 4 prmeras dluções e 5 repetções para a últma dlução. O objetvo do expermento era estmar o número de partículas de vírus por undade de volume. abela 3.: Números de partículas de vírus para 5 dluções dferentes. Dlução Contagens 0,316 13 14 17-0,1778 9 14 6 14-0,1000 4 4 3 5-0,056 3 1 3-0,0316 1 3 N = 0,9861 e KL = 0,868. 3.3. EGESSÃO GAMA Na tabela abaxo são apresentados os resultados de um expermento em que a resstênca (em horas) de um determnado tpo de vdro fo avalada segundo quatro níves de voltagem (em klovolts) e duas temperaturas (em graus Celsus). Estes dados aparecem no lvro Statstcal Models and Methods for Unforme Data, Lawless (198), pág.338. emperatura ( C) 170 180 Voltagem (kv) 00 50 300 350 439 57 315 58 904 690 315 58 109 904 439 347 1105 1090 68 588 959 16 41 41 1065 315 315 41 1065 455 33 435 1087 473 380 455 N = 0,6480 e KL = 0,6369. 18

4. Dscussão Mostramos duas formas de generalzar o chamadas N proposto por város pesqusadores e estudadas suas propredades por Nalgelkerke (1991) e conhecdo do modelo de regressão lnear, KL, o qual é baseado na dvergênca de Kullback-Lebler, proposto por Cameron e Wndmejer (1996). Neste trabalho aplcamos as duas generalzações a stuações partculares dos modelos lneares generalzados, os quas sabdamente pertencem à famíla exponencal de densdade: modelos gama, logístco e Posson. Observamos que nos modelos contínuos, sto é, nos modelos de regressão normal e gama os coefcentes N e KL concdem aproxmadamente. Nos modelos de regressão dscretos: logístco e Posson, observamos uma grande dvergênca entre os valores obtdos dos coefcentes N e KL. Para responder à questão em qual coefcente de determnação confar, nas stuações dscretas, decdmos mostrar comparatvamente as observações e estmatvas obtdas em cada stuação. Sempre lembrando que os resultados apresentados são referentes ao modelo escolhdo como melhor. A fgura (3a) mostra os valores observados e predtos no exemplo de regressão Posson. Observamos que, embora bem ajustado, a varabldade das observações para cada covarável não permtra altos valores de determnação KL, logo confamos no resultado obtdo com o coefcente de, baseado na dssmlardade de Kullbak-Lebler. A fgura (3b) mostra as proporções observadas e estmadas no exemplo de regressão logístca. Neste caso, os pontos vermelhos ndcam as estmatvas obtdas pelo modelo escolhdo, também observamos que o valor do coefcente de determnação não deve Logo confamos no resultado obtdo com o coefcente de determnação KL ser muto elevado.. 19

egressão Posson (3a) egressão Logístca (3b) Fgura 3: Gráfco de valores observados e valores predtos. Como um dos resultados do estudo aqu desenvolvdo podemos afrmar que o subestma o valor do coefcente de determnação nos modelos dscretos. ambém podemos afrmar que o valor dos coefcentes N e KL KL são aproxmadamente guas nos modelos contínuos. Uma afrmação de Nagelkerke (1991) faz toda a dferença nas aplcações prátcas, o valor máxmo de N máxmo. Esta correção mostra que o é menor do que 1, logo este coefcente é utlzado corrgdo pelo seu valor KL subestma o coefcente de determnação nos modelos dscretos, a menos um valor desconhecdo por nós, a partr do qual ser maor do que N. Isto sera um tema de trabalhos futuros de grande nteresse. KL deve Baseados nossos conhecmentos atuas, sugermos dar preferênca ao coefcente de determnação KL ou N. KL nos modelos dscretos. Nos modelos contínuos é ndferente a utlzação de 0

5. Bblografa Anscombe, F.J. (1973). Graphs n statstcal analyss. he Amercan Statstcan, 7, 17-1. Cox, D.. (197). egresson models and lfe tables (wth dscusson). J.. Ststst. Soc. B34, 187-0. Akake, H. (1974). A new look at the statstcal model dentfcaton. IEEE ransacton on Automatc Contrl, AC-19, 715-73. Cox, D.. (1975). Partal lkelhood. Bometrka 6, 69-76. Cox, D.. & SNELL, E. J. (1989). he Analyss of Bnary Data, nd ed. London: Chapman and Hall. Maddala, G. S. (1983). Lmted-Dependent and Qualtatve Varables n Econometrcs. Cambrdge Unversty Press. Magee, L. (1990). ² measures base don Wald and lkehood rato jont sgnfcance testes. Am. Statstcan 44, 50-3. ao, C.. (1973). Lnear Statstcal Inference and ts Applcatons, nd ed.new York: Wley. ao, C.. (1973). Lnear Statstcal Inference and ts Applcatons. John Wley and Sons, second edton. Gmeno, S.G.A. e Souza, J.M.P. (1995). Utlzação de estratfcação e modelo de regressão logístca na análse de dados de estudos caso-controle. evsta de Saúde Públca, Vol. 9 n 4, pp. 83-89. Lawless, J.F. (198). Statstcal Models and Methods for Lfetme Data. John Wley, New York. 1

6. Anexos 6.1 COMANDOS DO Exemplo egressão Logístca Exemplo de regressão logístca Gmeno & Souza (1995). Utlzação de estratfcação e modelo de regressão logítca na análse de dados de estudos casos-controle. evsta de Saúde Públca, Vol.9, No.4, pp.83-89 Dados Sexo=c(rep("Femnno",8),rep("Masculno",8)) Sexo=factor(Sexo) Idade=c(rep(c(rep("menos",4),rep("mas",4)),)) Idade=factor(Idade) Bebe=c(rep(c("N","N","S","S"),4)) Bebe=factor(Bebe) Fuma=c(rep(c("N","S"),8)) Fuma=factor(Fuma) Caso=c(3,0,0,5,,3,0,3,0,,1,40,0,0,0,6) Controle=c(30,15,14,13,41,8,6,,9,1,8,58,6,19,4,47) Modelo de regressão logístca ajuste1=glm(cbnd(caso,controle)~sexo+idade+bebe+fuma,famly=bnomal(lnk='logt')) summary(ajuste1) ajuste=glm(cbnd(caso,controle)~sexo+idade+bebe+fuma,famly=bnomal(lnk='probt')) summary(ajuste) ajuste3=glm(cbnd(caso,controle)~sexo+idade+bebe+fuma,famly=bnomal(lnk='cloglog')) summary(ajuste3) Escolha de modelo AIC(ajuste1,ajuste,ajuste3) step(ajuste3) ajuste3.fnal=update(ajuste3,.~.-sexo-idade) summary(ajuste3.fnal) Calculando o ² Nagelkerke ajuste0=glm(cbnd(caso,controle)~1,famly=bnomal(lnk='cloglog'))

n=length(caso) N=1-exp(-*(logLk(ajuste3.fnal)[1]-logLk(ajuste0)[1])/n) N Calculando o valor máxmo de N max=1-exp(*loglk(ajuste0)[1]/n) max Calculando o ² Nagelkerke corrgdo pelo valor máxmo N/max Calculando o ² Kullback-Lebler meda.y=mean(caso/controle) numerador=sum(ftted(ajuste3.fnal)*log(ftted(ajuste3.fnal))+(controleftted(ajuste3.fnal)*log(controle-ftted(ajuste3.fnal)))) denomnador=sum(meda.y*log(meda.y)+(controle-meda.y)*log(controle-meda.y)) KL=1-numerador/denomnador KL 3

Exemplo egressão Posson Exemplo 6, pág. 1, lvro de Clarce G,B. Demétro et all. dlucao=c(rep(0.316,4),rep(0.1778,4),rep(0.1000,4),rep(0.0565,4),rep(0.0316,5)) Contagem=c(13,14,17,,9,14,6,14,4,4,3,5,3,,1,3,,1,3,,) ajuste1=glm(contagem~dlucao,famly=posson(lnk='log')) summary(ajuste1) ajuste=glm(contagem~dlucao,famly=posson(lnk='dentty')) summary(ajuste) ajuste3=glm(contagem~dlucao,famly=posson(lnk='sqrt')) summary(ajuste3) AIC(ajuste1,ajuste,ajuste3) par(mfrow=c(,3)) plot(ajuste,whch=1:6) Calculando o ² Nagelkerke ajuste0=glm(contagem~1,famly=posson(lnk='log')) n=length(contagem) N=1-exp(-*(logLk(ajuste)[1]-logLk(ajuste0)[1])/n) N Calculando o valor máxmo de N max=1-exp(*loglk(ajuste0)[1]/n) max Calculando o ² Nagelkerke corrgdo pelo valor máxmo N/max Calculando o ² Kullback-Lebler meda.y=mean(contagem) KL=1-sum(Contagem*log(Contagem/ftted(ajuste))-(Contagemftted(ajuste)))/sum(Contagem*log(Contagem/meda.y)) KL 4

Exemplo egressão Gama Exemplo do lvro de Lawless, 198, pág. 338) dados=read.table("http://people.ufpr.br/~lucambo/ce5/1s009/vdro.dat",h=) names(dados) attach(dados) Voltagem=factor(Voltagem) emperatura=factor(emperatura) Modelo de regressão gama ajuste1=glm(mresst~voltagem+emperatura,famly=gamma(lnk='nverse')) summary(ajuste1) ajuste=glm(mresst~voltagem+emperatura,famly=gamma(lnk='dentty')) summary(ajuste) ajuste3=glm(mresst~voltagem+emperatura,famly=gamma(lnk='log')) summary(ajuste3) AIC(ajuste1,ajuste,ajuste3) Calculando o ² Nagelkerke ajuste0=glm(mresst~1,famly=gamma(lnk='dentty')) n=length(mresst) N=1-exp(-*(logLk(ajuste)[1]-logLk(ajuste0)[1])/n) N Calculando o valor máxmo de N max=1-exp(*loglk(ajuste0)[1]/n) max Calculando o ² Nagelkerke corrgdo pelo valor máxmo N/max Calculando o ² Kullback-Lebler meda.y=mean(mresst) KL=1-sum(log(Mresst/ftted(ajuste))+(Mresstftted(ajuste))/ftted(ajuste))/sum(log(Mresst/meda.y)) KL 5