Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz

Tamanho: px
Começar a partir da página:

Download "Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz"

Transcrição

1 Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Modelos lineares generalizados e modelos de dispersão aplicados à modelagem de sinistros agrícolas Keliny Martins de Melo Sousa Dissertação apresentada para obtenção do título de Mestre em Ciências. Área de concentração: Estatística e Experimentação Agronômica Piracicaba 2010

2 Keliny Martins de Melo Sousa Licenciada em Matemática Modelos lineares generalizados e modelos de dispersão aplicados à modelagem de sinistros agrícolas Orientador: Prof. Dr. VITOR AUGUSTO OZAKI Dissertação apresentada para obtenção do título de Mestre em Ciências. Área de concentração: Estatística e Experimentação Agronômica Piracicaba 2010

3 Dados Internacionais de Catalogação na Publicação DIVISÃO DE BIBLIOTECA E DOCUMENTAÇÃO - ESALQ/USP Sousa, Keliny Martins de Melo Modelos lineares generalizados e modelos de dispersão aplicados à modelagem de sinistros agrícolas / Keliny Martins de Melo Sousa. - - Piracicaba, p. : il. Dissertação (Mestrado) - - Escola Superior de Agricultura Luiz de Queiroz, Bibliografia. 1. Modelos lineares generalizados 2. Perdas agrícolas - Modelagem 3. Seguro Agrícola 4 Verossimilhança I. Título CDD S725m Permitida a cópia total ou parcial deste documento, desde que citada a fonte O autor

4 3 Dedicatória A Deus, por me dar força interior e coragem para concluir este trabalho, e pela perseverança de não desistir nunca. Aos meus pais, Waldinar de Sousa do Nascimento e Edenir Martins de Melo Sousa, que sempre me apoiaram, estiveram presentes e acreditaram em meu potencial, me incentivando na busca de novas realizações.

5 4 sociedade. Dificuldades e obstáculos são fontes valiosas de saúde e força para qualquer Albert Einstein

6 5 AGRADECIMENTOS Tentarei expressar nestes poucos parágrafos apenas uma pequena parte da minha gratidão em relação a algumas pessoas que participaram direta ou inderatamente para a conclusão deste trabalho. Foram tantos sorrisos, lágrimas, decepções mas também muitas conquistas, que tornam a transcrição dessas poucas páginas um trabalho árduo. Antecipadamente, expresso minhas desculpas àqueles não mencionados, mas que de maneira alguma, são menos importantes para mim. Agradeço, dedico, ofereço, em primeiro lugar a Deus, por ter me dado força, saúde, perserverança, humildade e sabedoria. Àos meus pais, Waldinar de Sousa e Edenir Martins, por serem o meu porto seguro em muitos momentos da minha caminhada. Ao meu pai, uma pessoa simples e perseverante, que sempre incentivou e colocou a nossa formação profissional (minha e das minhas irmãs Keylla e Kennya e irmão Joabe) em primeiro lugar. À minha mãe, meu espelho de vida, de mãe, mulher, amiga, filha, por sua incansável generosidade me possibilitando aprender a cada dia a concretude do amor. Palavras me faltam para expressar toda a minha gratidão. Aos meus avós, Nilo Martins, Joelina Melo, Nascimento(in memoriam) e Rita Sousa. Em especial, ao vozinho (Nilo), por todo incentivo e seu exemplo de caráter, e a vozinha (Joelina), por suas palavras de sabedoria e por ser exemplo de fidelidade a Deus. O amor incondicional de vocês é o que me faz caminhar. Às minhas irmãs, Keylla Martins, Kennya Martins (minha psicóloga), e irmão Joabe Martins por tantas histórias e pelas diversas demonstrações de amor em cada palavra, gesto, silêncio, carinho, confiança, preocupação e dedicação. Aos meus cunhados, Rui Evaldo e Daniel Melo e sobrinhas Raquel Yasmim (amor do tamanho do universo), Bianca Vida e Sofia Melo, por me proporcionar tantos momentos ímpares de alegria. À minha família de Piracicaba, Renato Nunes, Ana Paula, Rafael Gregolin, Rose Muniz, Tiago Egydio, pela alegria, por momentos tão únicos e inesquecíveis, e por estarem sempre ao meu lado me mostrando a importância de ser persistente e de sempre lutar. Em especial a Ludmila (flor), por ser a minha irmãzinha, sempre muito companheira e amiga.

7 6 Ao Prof. Dr. Vitor Augusto Ozaki, a compreensão, a paciência, a exigência, e a orientação na elaboração deste trabalho. À Prof a. Dr a. Clarice Garcia Borges Demétrio, por toda a experiência, serenidade, sabedoria transmitidas durante essa etapa final do trabalho e por toda a amizade e paciência. Sua participação foi imprescendível para a conclusão deste trabalho. Ao conselho do programa de Pós-Graduação em Estatística e Experimentação Agronômica. Aos professores do Departamento de Ciências Exatas da ESALQ/USP, Prof. Dr. Carlos Tadeu dos Santos Dias, Prof. Dr. Décio Barbin, Prof. Dr. Cesár Gonçalves, Prof a Dr a Roseli Aparecida Leandro, Prof. Dr. Silvio Sandoval Zocchi e Prof a. Dr a. Sônia Maria Stefano Piedade. Aos funcionários do Departamento de Ciências Exatas da ESALQ/USP, as secretárias Solange de Assis Paes Sabadin (Sô), e Luciane Brajão e aos técnicos em informática Jorge Alexandre Wiendl e Eduardo Bonilha, os auxílios permanentes. Ao Antonio Carlos Ricardo Braga Junior, pela amizade, carinho, diversão e longas conversas. À Mariana Ragassi Urbano, pela amizade e por sempre estar disposta a me ajudar. Aos colegas de estudo do mestrado e do doutorado, a amizade, e a paciência, principalmente, dos amigos Epaminondas, Rodrigo, Patricia, Marcelino, Tiago de Oliveira, Raphael, Pedro, Adriana, Ana Patricia, Ricardo, Tiago Flor, Diógenes, Marcelo, Elizabeth, Fernanda, Elton, Paula Fontes, Guilherme, Cássio, Paula Klefens, Simone, Glaúcia, Vanderly e Alexandre (in memoriam). Aos amigos de Teresina-PI, Américo Júnior, Áurea Beatriz e Danielle, pela amizade, carinho, compreensão, paciência e companheirismo, apesar da distância. À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), o auxílio financeiro prestado. A todas as pessoas que contribuíram direta ou indiretamente para a realização deste trabalho.

8 7 SUMÁRIO RESUMO ABSTRACT LISTA DE FIGURAS LISTA DE TABELAS INTRODUÇÃO Objetivos Seguro agrícola DESENVOLVIMENTO Revisão de Literatura Modelos Lineares Generalizados Definição Exemplos Estimação dos parâmetros e verificação do ajuste do modelo Estimação via máxima verossimilhança e verificação do ajuste do modelo Tipos de resíduos em modelos lineares generalizados O método de bootstrap e verificação do ajuste do modelo Modelos de Dispersão Definição Modelos Próprios de Dispersão Modelos Exponenciais de Dispersão Exemplos de Modelos Exponenciais de Dispersão Modelo Exponencial de Dispersão Tweedie A Distribuição de Poisson Composta Resíduos Estimação dos Parâmetros Material e Métodos Material Métodos Resultados e Discussão

9 8 3 CONSIDERAÇÕES FINAIS REFERÊNCIAS ANEXOS

10 9 RESUMO Modelos lineares generalizados e modelos de dispersão aplicados à modelagem de sinistros agrícolas O presente trabalho tem por objetivo utilizar a abordagem dos modelos lineares generalizados e os modelos de dispersão no contexto do seguro agrícola. Os modelos lineares generalizados (MLG s) constituem uma extensão dos modelos lineares de regressão múltipla introduzida por Nelder e Wedderburn (1972), que inclui modelos cuja variável resposta pertence à família exponencial de distribuições. O MLG é formado por um componente aleatório, que possui distribuição pertencente à famíia exponencial, um componente sistemático, conectados por uma função de ligação. Jorgensen (1997) estende a utilização dos MLG para uma classe mais ampla de modelos probabilísticos, denominados modelos de dispersão. A estimação dos parâmetros foi baseada no método da máxima verossimilhança, e também, em função da amostra ser relativamente pequena, optou-se pelo método de bootstrap não-paramétrico. As duas abordagens foram aplicadas a dois conjuntos de dados de sinistros de 15 municípios do estado do Rio Grande do Sul. Os resultados mostraram que a precipitação acumulada tem influência na ocorrência de sinistros. Entretanto, na modelagem do montante do sinistro não foi encontrada nenhuma variável significativa. Usando o método de bootstrap, foi encontrada influência das variáveis precipitação acumulada e a temperatura média no número de sinistros. Palavras-chave: Seguro agrícola; Modelo linear generalizado; Modelo de dispersão; Superdispersão; Família Tweedie; Bootstrap

11 10 nada

12 11 ABSTRACT Generalized linear models and model dispersion applied to modelling agricultural claims The main objective of this work is to use the generalized linear models and dispersion models in the agricultural insurance context. The Generalized Linear Model (GLM) are an extension of the multiple regression linear models presented by Nelder e Wedderburn (1972). This approach include situations in which the response variable can be included in exponencial the family. The GLM is composed of a randomized component, a sistematic component and the link functions. Jφrgensen (1997) extend the application of the GLM for a more general class of probability models, called dispersion models. Both approaches were applied in two insurance datasets for 15 citys in Rio Grande do Sul. The parameters estimation was based in the maximum likelihood method, in addition, because of the relatively small sample, the non-parametric Bootstrap method was used. This study show, using GLM, that only the accumulated rainfall was statistically significant. However, any of the covariates was significant when modelling the amount of claims. In the analysis using Bootstrap method the accumulated rainfall and average temperature were significant when modelling the number of insurance clains. keywords: Agricultural insurance; Generalized linear models; Dispersion models; Overdispersion; Tweedie family; Bootstrap

13 12 nada

14 13 LISTA DE FIGURAS Figura 1 - Distribuição Tweedie para variações do valor de p Figura 2 - Algumas funções densidade de probabilidade da Poisson composta. A probabilidade em zero é indicado pela barra Figura 3 - Histograma da variável número de sinistros Figura 4 - (a) Gráfico dos resíduos versus valores ajustados o modelo de Poisson (b) Gráfico normal de probabilidade com envelope simulado para o modelo de Poisson Figura 5 - (a) Envelopes de confianca para α = 5% (b) Número de sinistros segundo a precipitação: valores observados e curva ajustada Figura 6 - Histograma do valor do sinistro Figura 7 - Gráfico da verossimilhança perfilada para o modelo Tweedie Figura 8 - Gráfico normal de probabilidades e histograma dos resíduos, ajustando-se o modelo Tweedie aos dados de seguro agrícola

15 14

16 15 LISTA DE TABELAS Tabela 1 - Modelos de dispersão exponencial da família Tweedie Tabela 2 - Número de sinistros seguro agrícola solidário uva Tabela 3 - Montante seguro agrícola solidário uva Tabela 4 - Estimativas do bootstrap para o modelo binomial negativo Tabela 5 - Intervalo de confiança do bootstrap para o modelo binomial negativo Tabela 6 - Estimativas de bootstrap para o modelo Tweedie Tabela 7 - Intervalo de confiança de bootstrap para o modelo Tweedie

17 16

18 17 1 INTRODUÇÃO A agricultura é uma das atividades mais antigas exercidas pelo homem. Por ser uma atividade econômica tipicamente caracterizada pela sua vulnerabilidade a eventos que estão fora do controle do produtor, mecanismos voltados a sua proteção tem sido desenvolvido. Podemos destacar o seguro agrícola, que é a forma mais eficaz de transferir o risco dos produtores para outros agentes econômicos (OZAKI, 2005). Esse mecanismo de seguro agrícola, permite ao produtor igualar sua renda quando ocorre um evento que cause danos econômicos à situação em que tal evento não ocorra mediante o pagamento de um prêmio (importância paga pelo segurado à seguradora em troca da transferência do risco a que ele está exposto) e o recebimento de uma indenização, caso ocorra o sinistro. Nesse sentido, é fundamental detectar quais variáveis influenciam a quantidade de sinistros durante a vigência de um contrato. Nos ramos não-agrícolas várias metodologias têm sido utilizadas para a modelagem de sinistros. Dentre elas, destacam-se os modelos lineares generalizados, introduzido por Nelder e Wedderburn (1972) e os modelos de dispersão desenvolvido por Jφrgensen (1997). No entanto, não há referência de nenhum trabalho que utilize a metodologia supramencionada no contexto agrícola. 1.1 Objetivos O objetivo geral da pesquisa é utilizar a abordagem dos modelos lineares generalizados e os modelos de dispersão no seguro agrícola testando diversas distribuições. Neste cenário, dois objetivos específicos são propostos: - Modelar os dados de sinistros agrícolas; - Analisar uma série de modelos estatísticos a fim de tirar conclusões a respeito dos fatores geradores de sinistros. 1.2 Seguro agrícola Em qualquer setor de atividade econômica existem riscos que variam em menor ou maior grau. No setor agrícola, além do risco de mercado, existem diversas outras fontes

19 18 que a tornam uma atividade eminentemente arriscada. A principal delas refere-se ao fato de que, a atividade agrícola é altamente dependente de condições ambientais de difícil controle pelo homem, de modo que as variáveis climáticas e sua interação com fatores bióticos podem influenciar sobremaneira o resultado final da safra. Nesse sentido, em diversos países, o seguro agrícola tem se destacado como um dos principais mecanismos de gestão de risco (OZAKI; SHIROTA, 2005). No entanto, no Brasil, o seguro agrícola tem encontrado sérias dificuldades em se popularizar. Vários são os fatores (OZAKI, 2007): - alto custo do prêmio: em virtude do elevado risco, as taxas de prêmio são bem mais elevadas quando comparada a outros ramos de seguro; - risco moral: ocorre quando a seguradora é incapaz de observar se o produtor utilizou ou não o fator de produção; - seleção adversa: situação em que pessoas mais prováveis em receber um dano coberto pelo seguro são mais propensas a demandá-lo; - risco sistêmico: um evento causador do sinistro ocorre afetando não apenas um produtor, mas muitos produtores em uma vasta extensão territorial; - inexistência de séries suficientemente longas de dados de produtividade agrícola individual. Nesse contexto, o governo federal, por meio do Ministério da Agricultura, Pecuária e Abastecimento (MAPA) sancionou, em meados de 2003, a lei 10823, que subvenciona o prêmio do seguro rural 1. A lei tem por objetivo principal reduzir o valor do prêmio pago pelo produtor rural. Desde então, o seguro agrícola tem se expandido safra após safra em diversas regiões do país, principalmente na cultura de soja, milho e maçã. Além do subsídio federal, o setor ainda conta com os subsídios estaduais nos estados de Minas Gerais e São Paulo. 1 O seguro rural é formado pelo seguro agrícola, pecuário, florestas, aqüícola, penhor rural, benfeitorias, vida e cédula do produto rural.

20 19 Se pelo lado dos demandantes, o incentivo criado reduziu o prêmio, pelo lado das seguradoras (ofertantes), existe o problema do risco sistêmico, podendo levar a carteira agrícola de uma seguradora à ruína. Para evitar acumular grandes prejuízos as seguradoras utilizam o resseguro, que é o seguro das seguradoras. Ou seja, as seguradoras dividem entre uma ou mais resseguradoras uma parcela de suas apólices, reduzindo assim a exposição ao risco. Nesse sentido, a seguradora paga um prêmio para as resseguradoras garantindo em troca o ressarcimento das indenizações que forem devidas na proporção das apólices transferidas. Para alavancar de vez esse mercado, o governo federal prevê, ainda no primeiro semestre de 2010, a sanção do Projeto de Lei Complementar 374, que cria o fundo de catástrofe. Esse fundo protegerá as seguradoras em caso de eventos catastróficos. Se no campo político e coorporativo existe uma grande movimentação por parte do governo e das empresas, no universo acadêmico existem poucos estudos que se aplicam ao seguro agrícola. Nesse sentido, esse trabalho pretende estudar o impacto das variáveis climáticas nos sinistros agrícolas por meio dos MLG s e modelo de dispersão. A próxima seção revisa os modelos lineares generalizados e os modelos de dispersão detalhando a forma de estimação pelo método de máxima verossimilhança e por bootstrap.

21 20 2 DESENVOLVIMENTO 2.1 Revisão de Literatura Modelos Lineares Generalizados Definição Os Modelos Lineares Generalizados (MLG s) constituem uma extensão dos modelos lineares de regressão múltipla introduzida por Nelder e Wedderburn (1972), que inclui modelos cuja variável resposta pertence à família exponencial de distribuições, além de dar maior flexibilidade para a relação funcional entre a média da variável resposta µ e o preditor linear η. A função de ligação entre a média e o preditor linear não é necessariamente a identidade, podendo assumir qualquer forma monótona não-linear. Os MLG s podem ser usados quando se tem uma única variável aleatória Y associada a um conjunto de variáveis explanatórias x 1, x 2,..., x p. Para uma amostra de n observações (y i, x i ) em que x i = (x i1,..., x ip ) T, i = {1, 2,..., n} é o vetor coluna de variáveis explicativas, o MLG envolve três componentes (CORDEIRO; DEMÉTRIO, 2007): i) Componente aleatório: a variável resposta é representada por um conjunto de variáveis aleatórias independentes Y 1,..., Y n com distribuição pertencente a família exponencial de distribuições com médias µ 1,..., µ n. A função densidade de probabilidade de Y i é dada por f(y i ; θ i, φ) = exp{φ 1 [y i θ i b(θ i )] + c(y i, φ)}, (1) em que φ > 0, conhecido, é o parâmetro de dispersão e θ i o parâmetro canônico. ii) Componente sistemático: as variáveis explicativas entram na forma de uma soma linear de seus efeitos η i = p x ir β j = x T i β ou η = Xβ, (2) r=1 em que X = (x 1,..., x n ) T é a matriz do modelo, β = (β 1,..., β p ) T o vetor dos parâmetros, η = (η 1,..., η n ) T o preditor linear e c(y i, φ) conhecido.

22 21 iii) Função de ligação: relaciona o componente aleatório ao componente sistemático, isto é, η i = g(µ i ), (3) sendo g( ) uma função monótona e diferenciável. Nesses termos, um MLG é definido por uma distribuição da família (1), uma estrutura linear (2) e uma função de ligação (3). A generalização em relação ao modelo linear clássico é que: - a variável resposta, componente aleatório do modelo, tem uma distribuição pertencente à família exponencial na forma canônica (distribuições normal, gama e normal inversa para dados contínuos; binomial para proporções; poisson e binomial negativa para contagens); - as variáveis explicativas ou covariáveis, entram na forma de um modelo linear (componente sistemático); - a ligação entre os componentes aleatório e sistemático é feita através de uma função de ligação. Existem diversas possibilidades de escolha da função de ligação. Entretanto, essa escolha depende do problema de modelagem em particular. Se a função de ligação é escolhida de tal forma que g(µ i ) = θ i = η i, o preditor linear modela diretamente o parâmetro canônico θ i e a função de ligação η i é denominada de ligação canônica (MCcCULAGH; NELDER, 1989). Para o modelo clássico de regressão, a função de ligação canônica é a identidade com preditor linear igual a média. Essa função de ligação é adequada no sentido em que η e µ, podem assumir valores na reta real. Mas quando se tratar, por exemplo, da distribuição de Poisson em que µ > 0 possui restrições, a função de ligação identidade não deve ser usada, pois ˆµ poderá assumir valores negativos, dependendo dos valores obtidos para ˆβ. Ainda, dados de contagem dispostos em tabela de contigência, sob a suposição de independência, conduzem, naturalmente, a efeitos multiplicativos cuja linearização pode ser obtida por meio da função de ligação logarítmica, isto é, η = log(µ) e, portanto, µ = e η. Seja a variável Y i definida em (1). O valor esperado e a variância são dadas por: E(Y i ) = µ i = b (θ i ) e Var(Y i ) = φb (θ i ).

23 22 A função que relaciona o parâmetro canônico θ i com a média µ i é denotada por θ i = q(µ i ). A função da média µ na variância é representada por b (µ i ) = V (µ i ), e denomina-se V (µ i ) de função de variância. Sendo assim, as distribuições da família exponencial têm relação conhecida entre a média e a variância, e essa relação é denotada por: Var(Y i ) = φv (µ i ) Exemplos Como exemplos de distribuições pertencentes à família exponencial, têm-se as distribuições normal, Poisson, binomial, gama, normal inversa e binomial negativa. - Distribuição Normal probabilidade dada por A variável aleatória Y f(y; µ, σ 2 ) = tem distribuição normal com função densidade de [ ] 1 exp (y µ)2, 2πσ 2 2σ 2 com µεr e σ > 0, conhecido. Desenvolvendo a função, tem-se f(y; µ, σ 2 (y µ)2 ) = exp [ 1 ] 2σ 2 2 log(2πσ2 ) [ ) 1 = exp (yµ µ2 12 ] σ 2 2 log(2πσ2 ) y2, 2σ 2 e utilizando a notação da família exponencial tem-se: θ = µ, φ = σ 2, b(θ) = µ2 2 = θ2 [ ] 2 y c(y, φ) = σ + 2 log(2πσ2 ). e Portanto, a distribuição normal pertence à família exponencial de distribuições com média E(Y ) = b (θ) = 2θ 2 = θ e variância Var(Y ) = φb (θ) = σ 2. - Distribuição de Poisson A variável aleatória Y tem distribuição de Poisson, com parâmetro µ > 0 e função de probabilidade dada por f(y; µ) = e µ µ y, para y = 0, 1, 2, 3,... y!

24 23 Desenvolvendo a função, tem-se f(y; µ) = exp[y log µ µ log(y!)], e utilizando a notação da família exponencial tem-se: θ = log(µ) µ = e θ, φ = 1, b(θ) = µ = e θ e c(y, φ) = log(y!). Portanto, a distribuição de Poisson pertence à família exponencial de distribuições com média E(Y ) = b (θ) = µ = e θ e variância Var(Y ) = φb (θ) = e θ. O modelo de Poisson é de grande importância para a análise de dados em forma de contagem. Suas características principais são: - proporciona, em geral, uma descrição satisfatória de dados experimentais cuja variância é proporcional à média; - pode ser deduzido teoricamente de princípios elementares com um número mínimo de restrições; - se eventos ocorrem independente e aleatoriamente no tempo, com taxa média de ocorrência constante, o modelo determina o número de eventos, em um intervalo de tempo especificado. - Distribuição Binomial dada por A variável aleatória Y tem distribuição binomial com função de probabilidade f(y; π) = Desenvolvendo a função, tem-se [ ( ) n f(y; π) = exp log y [ = exp y log ( ) n π y (1 π) n y, π [0, 1], y = 0, 1, 2,..., n. y ] + y log π + (n y) log(1 π) ) ( π 1 π + n log(1 π) + log e utilizando a notação da família exponencial tem-se: ( ) ( ) π µ θ = log = log µ = neθ 1 π n µ (1 + e θ ), ( n y φ = 1, b(θ) = n log(1 π) = n log(1 + e θ ) e c(y, θ) = log )], ( ) n. y

25 24 Portanto, a distribuição binomial pertence à família exponencial de distribuições, com média e variância dadas, respectivamente, por E(Y ) = b (θ) = neθ 1 + e = µ e Var(Y ) = θ φb (θ) = neθ nµ µ2 =. (1 + e θ ) 2 n O modelo binomial é usado, principalmente, no estudo de dados na forma de proporções e na análise de dados binários. - Distribuição Gama A variável aleatória Y tem distribuição gama com função densidade de probabilidade dada por: f(y; µ, v) = ( ) v v ( ) µ yv Γ(v) yv 1 exp, y > 0. µ Desenvolvendo a função, tem-se { ( ) v v f(y; µ, v) = exp log log Γ(v) + (v 1) log(y) yv } µ µ { [ ( = exp v y 1 ) ] } log(µ) + v log(vy) log Γ(v) log(y), µ e utilizando a notação da família exponencial tem-se: θ = 1 µ µ = 1 θ, φ = 1, b(θ) = log(µ) = log( θ) e v c(y, φ) = v log(vy) log Γ(v) log(y). Portanto, a distribuição gama pertence à família exponencial de distribuições, com média e variância dadas, respectivamente, por E(Y ) = b (θ) = 1 θ = µ e Var(Y ) = φb (θ) = 1 v µ2 = µ2 v. - Distribuição Normal Inversa A variável aleatória Y tem distribuição normal inversa com função densidade de probabilidade dada por: ] f(y; µ, σ 2 ) = (2πσ 2 y 3 ) 1/2 (y µ)2 exp [, y > 0 2µ 2 σ 2 y

26 25 Desenvolvendo a função, tem-se f(y; µ, σ 2 ) = exp { 12 } log(2πσ2 y 3 (y µ)2 ) 2µ 2 σ 2 y { [ ( 1 = exp y 1 ) + 1 ] σ 2 2µ 2 µ e utilizando a notação da família exponencial, tem-se: 1 2 log(2πσ2 y 3 ) 1 2σ 2 y }. e θ = 1 2µ 2, φ = σ2, b(θ) = 1 µ = ( 2θ)1/2 c(y, φ) = 1 2 [ log(2πσ 2 y 3 ) + 1 ]. σ 2 y Portanto, a distribuição normal inversa pertence à família exponencial de distribuições com média e variância, respectivamente, E(Y ) = µ e Var(Y ) = σ 2 µ 3. - Distribuição Binomial Negativa de probabilidade dada por A variável aleatória Y tem distribuição binomial negativa com função densidade f(y; µ, k) = Γ(k + y) Γ(k)y! µ y k k (µ + k), k+y em que k > 0, conhecido, µ > 0 e y = 0, 1,.... Desenvolvendo a função, tem-se { f(y; µ, k) = exp = exp ( ) } Γ(k + y) + y log(µ) + k log(k) (k + y) log(µ + k) Γ(k)y! log { y(log(µ) log(µ + k)) + k(log(k) log(µ + k)) + log e utilizando a notação da família exponencial tem-se: ( ) µ θ = log, φ = 1, b(θ) = k log(1 e θ ) µ + k e c(y, φ) = log ( ) Γ(k + y). Γ(k)y! Γ(k + y) Γ(k)y! Portanto, a distribuição binomial negativa pertence à família exponencial de distribuições com média e variância, respectivamente, E(Y ) = keθ 1 e θ e Var(Y ) = keθ (1 e θ ) 2. },

27 Estimação dos parâmetros e verificação do ajuste do modelo Vários são os métodos de estimação de parâmetros. Iremos basear o estudo no método da máxima verossimilhança e no método de bootstrap não-paramétrico em virtude da amostra ser relativamente pequena Estimação via máxima verossimilhança e verificação do ajuste do modelo Seja um modelo linear generalizado e suponha que os dados a serem analisados sejam representados pelo vetor y = (y 1, y 2,..., y n ) T. O logarítmo da função de verossimilhança como função apenas de β, considerando-se o parâmetro de dispersão φ conhecido, dado o vetor y é definido por (CORDEIRO; DEMÉTRIO, 2007): l(β) = 1 φ n [y i θ i b(θ i )] + i=1 n c(y i, φ), i=1 em que θ i = q(µ i ), µ i = g 1 (η i ) e η i = p r=1 x irβ j. O vetor escore é formado pelas derivadas parciais de primeira ordem do logarítmo da função de verossimilhança, ou seja, U j = l(β) β j = n i=1 dl i dθ i dθ i dµ i dµ i dη i dη i dβ j. A estimativa de máxima verossimilhança ˆβ do vetor de parâmetros β é obtida igualando-se U j = 0 para j = 1,..., p. Em geral, as equações U j = 0, j = 1,..., p, não são lineares e devem ser resolvidas numericamente pelo método de Newton-Raphson ou o escore de Fisher. O método de Newton-Raphson para a solução de uma equação f(x) = 0 é baseado na aproximação de Taylor para a função de f(x) na vizinhança do ponto x m, ou seja, x (m+1) = x (m) f(x(m) ) f (x (m) ), sendo x (m+1) e x (m), o valor de x nos passos m + 1 e m, respectivamente; f(x (m) ) a função f(x) avaliada em x (m) e f (x (m) ) a derivada da função f(x) avaliada em x (m).

28 O objetivo é obter a solução do sistema de equações U = U(β) = l(β)/ β = 0 e, usando-se a versão multivariada do método de Newton-Raphson, tem-se que: 27 β (m+1) = β (m) + (J (m) ) 1 U (m), sendo β (m) e β (m+1) os vetores de parâmetros estimados nos passos m e (m+1), respectivamente, U (m) o vetor escore avaliado no passo m, e (J (m) ) 1 a inversa da negativa da matriz de derivadas parciais de segunda ordem de l(β), com elementos 2 l(β)/ β r β s avaliada no passo m. O método escore de Fisher, envolve a substituição da matriz de informação observada, J, pela matriz esperada de informação esperada de Fisher, K. Logo, β (m+1) = β (m) + (I (m) ) 1 U (m). A matriz de informação de Fisher para β é dada por K = φ 1 X T WX, em que W = diag{w 1,..., w n } uma matriz diagonal de pesos. Quando um modelo é ajustado, é necessário verificar se, realmente, ele se ajusta às observações. Nelder e Wedderburn (1972) desenvolveram a estatística desvio, definida por S p = 2( ˆl n ˆl p ) = 2φ 1 n {y i [ θ i ˆθ i ] b( θ i ) + b(ˆθ i )} = φ 1 D p, i=1 sendo S p o desvio escalonado, ˆl n e ˆl p os máximos do logarítmo da função de verossimilhança para os modelos saturados e correntes, respectivamente, θ i = θ i (y i ) e ˆθ i = ˆθ i (µ i ) as estimativas do parâmetro canônico sob os modelos saturado e corrente, e D p o desvio que pode ser calculado a partir das observações e das estimativas de suas respectivas médias. Pode-se, ainda, escrever S p = 1 φ n d 2 i, i=1 sendo que d 2 i mede a diferença dos logarítmos das funções de verossimilhança observada e ajustada, para a observação i correspondente, e é chamado de componente do desvio. A soma deles mede a discrepância total entre os dois modelos na escala logarítmica da verossimilhança.

29 28 Sejam dois modelos encaixados M q e M p, com q e p parâmetros, respectivamente, q < p, então a diferença S p S q = φ 1 (D p D q ) Xp q, 2 tem distribuição assintótica qui-quadrado com (p q) graus de liberdade, dado φ conhecido. Se φ for desconhecido, deve-se obter uma estimativa ˆφ consistente, e a inferência é baseada na estatística F, dada por F = (D p D q )/(p q) ˆφ F [(p q),(n p)]. (4) para testar o efeito dos termos que estão incluídos no modelo M p e não estão incluídos no modelo M q. Assim, um modelo bem (mal) ajustado aos dados, com uma verossimilhança máxima grande (pequena), tem um pequeno (grande) desvio. Entretanto, um grande número de variáveis explanatórias, visando reduzir o desvio, significa um grau de complexidade na interpretação do modelo. Na prática, procuram-se modelos simples com desvios moderados, situados entre os modelos mais complicados e os que não se ajustam bem aos dados. Portanto, quanto melhor for o ajuste do MLG aos dados tanto menor será o valor do desvio D p. Ainda, para um modelo bem ajustado, espera-se que a desvio residual seja aproximadamente igual ao número de graus de liberdade residual, devido à suposição de aproximação da distribuição do desvio pela distribuição X 2. Quando isso não acontece, uma explicação é que a variância pode ser maior que o previsto para o modelo e esse fenômeno é descrito como superdispersão (HINDE; DEMÉTRIO, 1998a, b). - Superdispersão A utilização dos modelos lineares generalizados na análise de dados tem se tornado de uso frequente, principalmente com o avanço dos recursos computacionais disponíveis. Entretanto, deve-se tomar cuidado, principalmente no caso de variáveis discretas, com a superdispersão. Os casos mais comuns são dados na forma de proporção e de contagem, cuja forma padrão de análise envolve o uso dos modelos binomial e Poisson. Para um bom ajuste espera-se que o desvio residual esteja próximo ao número de graus de liberdade do desvio residual. Quando isso não ocorre, uma explicação alternativa

30 29 para a falta do ajuste está relacionada ao componente aleatório do MLG, isto é, a variabilidade da variável aleatória que é maior do que a predita pelos modelos binomial ou de Poisson, ou seja, i) dados na forma de proporção com Var(Y i ) > m i π i (1 π i ); e, ii) dados na forma de contagem com Var(Y i ) > µ i, em que Y i é a variável resposta. Nestes casos, tem-se que φ > 1, fato conhecido por superdispersão. Pode ocorrer, também, a subdispersão, situação em que φ < 1. Diferentes modelos e métodos de estimação têm sido propostos na literatura para resolver os problemas de superdispersão. Hinde e Demétrio (1998b) dividiram as diferentes formas de abordagens da superdispersão em dois grupos: i) assumir alguma forma mais geral para a função de variância, possivelmente incluindo parâmetros adicionais que podem ser estimados por métodos como quaseverossimilhança, pseudo-verossimilhança e momentos; ii) assumir um modelo de dois estágios para a variável resposta, isto é, supondo que o parâmetro da distribuição da variável resposta é uma variável aleatória com alguma distribuição. No caso em que a variável resposta é uma proporção, e supondo que Y i tem distribuição binomial com E(Y i ) = µ i = m i π i e Var(Y i ) = m i π i (1 π i ), (5) em que π i é a probabilidade do sucesso. Se a variância observada for maior do que a prevista por (5), existirá superdispersão e a distribuição binomial não é mais adequada. A forma mais simples de se modelar a superdispersão é especificar apenas os dois primeiros momentos, mantendo E(Y i ) = µ i = m i π i e substituindo (5) por Var(Y i ) = φm i π i (1 π i ), φ > 0 constante. A forma geral é dada por Var(Y i ) = m i π i (1 π i ) [ 1 + φ(m i 1) δ 1 {π i (1 π i )} ] δ 2. (6)

31 30 (6), ou seja, Várias funções de variância são definidas para diferentes valores de δ 1, δ 2 e φ em i) se φ = 0, tem-se o modelo binomial padrão, em que Var(Y i ) = m i π i (1 π i ); ii) para δ 1 = 0 e δ 2 = 0, tem-se Var(Y i ) = m i π i (1 π i )[1 + φ], que é o modelo de superdispersão constante, reparametrizado de forma diferente; iii) para δ 1 = 1 e δ 2 = 0, tem-se Var(Y i ) = m i π i (1 π i )[1 + (m i 1)φ], que é o modelo II de Williams (WILLIAMS, 1982), sendo que a função de variância da distribuição beta-binomial é um caso especial desse modelo; iv) para δ 1 = 1 e δ 2 = 1, tem-se Var(Y i ) = m i π i (1 π i )[1 + φ(m i 1)π i (1 π i )], que é o modelo III de Williams ou logístico normal. Para dados de contagem, a forma geral é dada por: Var(Y i ) = m i {1 + φµ δ i }. (7) ou seja, Várias funções de variância são definidas para diferentes valores de δ e φ em (7), i) se φ = 0, tem-se o modelo de Poisson padrão, em que Var(Y i ) = µ i ; ii) para δ = 0, tem-se Var(Y i ) = µ i [1 + φ], que é o modelo de superdispersão constante, reparametrizado de forma diferente;

32 31 iii) para δ = 1, tem-se Var(Y i ) = µ i [1 + φµ δ i ], que é a função de variância da distribuição binomial negativa. Já os modelos do tipo (ii), isto é, os modelos em dois estágios, levam a modelos de probabilidade composta para a resposta e, em princípio, todos os parâmetros podem ser estimados usando-se o método da máxima verossimilhança. Em geral, a distribuição composta resultante não tem forma simples e métodos de estimação aproximados podem ser utilizados Tipos de resíduos em modelos lineares generalizados Os resíduos representam uma ferramenta importante na verificação da adequação do modelo, pois por meio deles é possível saber se o modelo está ou não ajustado às observações. As técnicas para análise de resíduos e diagnósticos para modelos lineares generalizados são semelhantes às técnicas utilizadas para modelos lineares clássicos, mas necessitam de algumas adaptações. Assim, ajustado um modelo linear generalizado a um conjunto de observações y i, i = 1,..., n, vários tipos de resíduos podem ser definidos: i) Resíduos ordinários r i = y i ˆµ i, em que ˆµ i é a média ajustada. ii) Resíduos de Pearson r p i = y i ˆµ i ˆV 1/2. O resíduo r p i, assim definido, corresponde à contribuição de cada observação para o cálculo da estatística de Pearson generalizada. A desvantagem do resíduo de Pearson é que a sua distribuição é, geralmente, bastante assimétrica para modelos não normais. iii) Resíduos de Anscombe A i = N(y i) N(ˆµ i ), N (ˆµ i ) em que N(y i ) é a transformação da observação y i, escolhida para tornar a sua distribuição o mais próximo possível da normal. Barndorff-Nielsen (1978) mostra que a transformação ˆV 1/2 i

33 32 a considerar nos modelos lineares generalizados é da forma N(µ) = V 1/3 dµ em que V é a função de variância. iv) Resíduos de Pearson estudentizados r p i = y i ˆµ i, V (ˆµ i )(1 ĥii) sendo ĥ ii o i-ésimo elemento da diagonal da matriz denotada por H = W 1/2 X(X T W X) 1 X T W 1/2 com matriz de projeção W. v) Componentes do desvio sendo que ω i é um peso a priori. ri D 2ωi = sinal(y i ˆµ i ) φ [y i( θ i ˆθ i ) + b( θ i ) b(ˆθ i )], vi) Componentes do desvio estudentizados r D i = r D i ˆθ(1 hi ), sendo h i o elemento da diagonal da matriz H O método de bootstrap e verificação do ajuste do modelo O método de reamostragem chamado de bootstrap, introduzido por Efron (1979), é usado para estimar a distribuição das estatísticas de interesse, que muitas vezes são extremamente difíceis de serem obtidas pelos métodos tradicionais (exatos e assintóticos). O bootstrap pode ser paramétrico ou não-paramétrico. O bootstrap nãoparamétrico considera que a função de distribuição F, dos dados, é desconhecida e estimada através da distribuição empírica ˆF. Já o bootstrap paramétrico considera que a função de distribuição F pode ser estimada por ˆF par a partir de um modelo paramétrico conhecido para os dados. Suponha que seja observada uma amostra aleatória r 1, r 2,..., r n de uma distribuição F estimada pela distribuição ˆF, que pode ser paramétrica ou não.

34 33 Assim, r = (r 1, r 2,..., r n ) representa o vetor dos dados, para os quais se calcula o estimador ˆβ = s( ˆF ) de um parâmetro de interesse β = s(f ). Considera-se que ˆF é a distribuição empírica de r. Então, uma amostra bootstrap R = (r1, r2,..., rn) é construída escolhendo-se aleatoriamente, com reposição, n elementos da amostra r = (r 1, r 2,..., r n ). Por exemplo, com n = 6, poder-se-ia pensar em r = (r 5, r 3, r 6, r 1, r 4, r 1 ). A replicação bootstrap do parâmetro de interesse para essa amostra bootstrap é denotada por ˆβ. Se forem geradas B amostras bootstrap r 1, r 2,..., r B, a replicação bootstrap do parâmetro de interesse para a b-ésima amostra é dada por ˆβ (b) = s(r b ), (8) ou seja, é o valor de ˆβ para a amostra bootstrap r b. - Estimativa do erro padrão A expressão para o estimador bootstrap do erro-padrão (EFRON; TIBSHIRANI, 1993) é dada por ˆσ boot = B [ ˆβ (b) ˆβ ( )] 2, B 1 b=1 em que ˆβ ( ) = B b=1 ˆβ (b) B, ˆβ (b) é descrita em (8) e B é o número de replicações bootstrap. - Intervalo de confiança Bootstrap Usando-se bootstrap podem-se obter intervalos aproximados de (1 α)100% de confiança para o parâmetro de interesse β. Existem diferentes métodos para a construção de intervalos de confiança bootstrap. Como exemplo, tem-se o de percentis bootstrap. i) Método percentis bootstrap Um conjunto de dados bootstrap r é gerado de acordo com ˆF R. Com base nesse conjunto de dados são calculadas replicações bootstrap ˆβ = s(r ). Considerando que Ĝ é a estimativa da função desconhecida da distribuição acumulada de ˆβ. O intervalo percentil

35 34 de (1 α)100% de confiança é definido por [ ˆβ %,inf, ˆβ %,sup ] = [Ĝ 1 (α), Ĝ 1 (1 α)]. (9) Por definição, tem-se que Ĝ 1 (α) = ˆβ (α) é o (100 α)-ésimo percentil da distribuição bootstrap de ˆβ. Então os intervalos percentis podem ser escritos como [ ˆβ %,inf, ˆβ %,sup ] = [ ˆβ (α), ˆβ (1 α) ]. (10) As expressões (9) e (10) referem-se à situação ideal do bootstrap para a qual o número de replicações é infinito. Na prática, usa-se um número finito B de replicações. Para o processo, geram-se B conjuntos de dados bootstrap r 1, r 2,..., r B e calculam-se as replicações bootstrap ˆβ(b) = s(r (b) ), b = 1, 2,..., B. Seja ˆβ B (α) o 100α-ésimo percentil empírico dos valores ˆβ (b), ou seja, o valor Bα-ésimo na lista ordenada das B replicações de ˆβ. Assim, se B = 1000 e α = 0, 05, ˆβ B (α) é o 100α-ésimo valor ordenado das 1000 replicações. Se (B α) não é um inteiro, utiliza-se o maior inteiro menor do que ou igual a (B + 1)α. Assim, quanto maior for B, melhor serão os intervalos estimados. Logo, o intervalo percentil aproximado de (1 α)100% de confiança é [ ˆβ %,inf, ˆβ %,sup ] = [ (α) ˆβ B (1 α), ˆβ B ] Modelos de Dispersão Em modelos lineares generalizados, a análise do desvio generaliza o método tradicional da análise de variância para dados normais. Assim, a idéia principal de Jφrgensen (1997) é estender essa metodologia para uma classe mais ampla de modelos, ou seja, ter a soma dos quadrados dos resíduos da análise de variância generalizada para uma noção de desvio aplicável na análise do desvio. Jφrgensen (1997) apresenta a classe de dispersão (MD) que cobre um grande número de distribuições não-normais, incluindo distribuições dos seguintes sete tipos de dados (sendo D o suporte da distribuição): 1. Dados da reta real, D = R.

36 35 2. Dados positivos, D = R Dados positivos com zeros, D = R 0 = [0, ). 4. Proporções, D = (0, 1). 5. Direções, D = [0, 2π). 6. Dados na forma de contagens, D = N 0 = 0, 1, 2, Dados Binomiais, D = 0,..., m. O conceito que fundamenta um modelo de dispersão é que a noção de locação e escala pode ser generalizada para posição e dispersão, respectivamente, para os sete tipos de dados (JφRGENSEN, 1997) Definição Um modelo de dispersão MD(µ, σ 2 ) é uma família de distribuições cuja função densidade de probabilidade pode ser escrita na forma { f(y; µ, σ 2 ) = a(y; σ 2 ) exp 1 } d(y; µ) y C, (11) 2σ2 em que Ω C R, a 0 é uma função apropriada, µ e σ 2 são, respectivamente, o parâmetro de posição e dispersão com µ Ω e σ 2 > 0 e d é o desvio, satisfazendo d(µ; µ) = 0 para µ Ω e d(y; µ) > 0 para y µ. A unidade do desvio é dita regular se d(y; µ) é diferenciável contínuo duas vezes com respectivo y, µ em Ω Ω e satisfaz 2 d (µ, µ) > 0 µ Ω. µ 2 A função de variância V : Ω R + do desvio regular é definida por 2 V (µ) = 2. (12) d (µ; µ) µ 2 Os modelos de dispersão são classificados em duas classes: os modelos próprios de dispersão e os modelos exponenciais de dispersão, definidos a seguir.

37 Modelos Próprios de Dispersão Uma distribuição de probabilidade denotada por PD(µ, σ 2 ) é chamada de modelo próprio de dispersão, se (11) é da forma: { f(y; µ, σ 2 ) = a(σ2 ) exp 1 } d(y; µ), V (y) 2σ2 y C (13) onde d é o desvio regular com função de variância V (µ). Os modelos próprios de dispersão são caracterizados pelo desvio d, pois a função de variância em (12) está em função de d, com a(σ 2 ) em torno da constante normalizada. As distribuições pertencentes à classe PD são distribuições usadas para análise de dados limitados em um intervalo, como os dados direcionais (ou cíclicos) e as proporções. Exemplos dessas distribuições são a distribuição de Von Mises para dados direcionais e a distribuição Simplex para proporções (JφRGENSEN, 1997) Modelos Exponenciais de Dispersão A variável aleatória Y pertence à família de distribuições exponenciais de dispersão (ED), se sua função de densidade é da forma: f(y; θ) = c(y) exp{θy κ(θ)} y R, (14) em que c(y) é uma função e κ(θ) é a correspondente função de cumulante com o parâmetro canônico θ pertencente ao conjunto Θ = {θ R k(θ) < }. A média da variável aleatória Y com distribuição em (14) é µ = τ(θ), com τ(θ) = κ (θ) e µ Ω = τ(intθ). A função de variância é V (µ) = τ {τ 1 (µ)}. O modelo exponencial de dispersão pode ser aditivo e reprodutivo. O modelo exponencial de dispersão aditivo, denotado por Y ED (µ, λ), tem função de densidade dada por f (y; θ, λ) = c (y; λ) exp(θy λκ(θ)), (15) em que µ é a média, σ 2 = 1/λ o parâmetro de dispersão e λ o parâmetro índice. A função geradora de cumulantes é dada por K (s; θ, λ) = λ{κ(θ + s) κ(θ)}.

38 37 Segue que a função geradora de momentos pode ser escrita como K (s; θ, λ) = exp{λ[κ(θ + s) κ(θ)]}, podendo-se obter a média µ = λκ (θ) = τ(θ), e a variância Var(Y ) = λκ (θ) = V(µ) σ 2 sendo que a função de variância da média é dada por = λv(µ), V(µ) = κ (τ 1 (µ)) com τ(θ) = κ (θ). O modelo exponencial de dispersão reprodutivo é definido pela aplicação da transformação X = Y/λ em (14), conhecida como transformação dual. A forma reprodutiva tem função densidade f(x; θ, λ) = c(x; λ) exp[λ{θx κ(θ)}], (16) e função geradora de cumulantes dada por K(s; θ, λ) = λ{κ(θ + s/λ) κ(θ)}. Segue que a função geradora de momentos pode ser escrita como K(s; θ, λ) = exp λ{κ(θ + s/λ) κ(θ)}. podendo-se obter a média µ = κ (θ) e variância Var(X) = λ 1 κ (θ). Escrevendo a média µ em função de θ, tem-se τ(θ) = µ = k (θ) de forma que θ = τ 1 (µ). Definindo a função de variância V(µ) = κ (τ 1 (µ)) e o parâmetro de dispersão σ 2 = 1/λ, a variância em termos da média e do parâmetro de dispersão é dada por Var(X) = σ 2 V(µ).

39 38 Dessa forma, escreve-se X ED(µ, σ 2 ). A unidade do desvio é dada por definida como se segue. d(x; µ) = 2 [ sup{θx κ(θ)} xτ 1 (µ) + κ{τ 1 (µ)} ], θ Θ. A propriedade de convolução para o modelo de dispersão exponencial aditivo é Seja Y 1,..., Y n variáveis aleatórias independentes e Y i ED (θ, λ i ) com λ i pertencente ao conjunto dos números reais positivos, ou seja, Λ = {λ i λ i > 0} = R + com i = 1,..., n. Então, a distribuição de Y + = Y Y n é dada por aleatórias independentes e Y + ED (θ; λ λ n ). Seja o modelo reprodutivo com transformação dual. Se X 1,..., X n são variáveis ) X i ED (µ, σ2 ω i i = 1,..., n, em que ω 1,..., ω n são pesos positivos tal que ω i /σ 2 Λ para todo i e µ Ω. é dada por Escrevendo ω + = ω ω n, a fórmula de convolução da forma reprodutiva 1 n ω + i=1 ) ω i X i ED (µ, σ2. ω Exemplos de Modelos Exponenciais de Dispersão - Distribuição Normal Seja N(µ, σ 2 ) denotando a distribuição normal com média µ e variância σ 2 cuja função de densidade é dada por p(y; µ; σ 2 ) = = { 1 exp 1 2πσ 2 2σ ( 1 exp y2 2πσ 2 2σ 2 (y µ)2 2 ) exp } { 1 σ 2 (yµ 12 µ2 )}. Fazendo θ = µ e λ = 1, a distribuição normal é um modelo de dispersão exponencial σ2 reprodutivo com função de cumulante k(θ) = 1 2 θ2. O valor médio τ(θ) = θ e a função de variância unitária é V(µ) = 1, definida em Ω = R.

40 39 O desvio unitário da distribuição normal é d(y; µ) = (y µ). - Distribuição Poisson Considere a variável Y com distribuição de Poisson denotada por Y Po(µ), com média µ = λe θ, sendo λ > 0 e θ R. Nessa parametrização, a função densidade de probabilidade é dada por: p (y; θ, λ) = λy y! exp(θy λeθ ), y = 0, 1, 2,... que é um modelo aditivo ED (θ, λ) com função de cumulante κ(θ) = e θ. Os parâmetros λ e θ não são identificáveis nesse caso. O desvio unitário de Poisson é d(y; µ) = 2 {y log yµ } (y µ), e a função de variância unitária é V (µ) = µ. - Distribuição Gama A distribuição Gama, denotada por Ga(µ, σ 2 ), é um modelo de dispersão exponencial reprodutivo, com função densidade dada por { p(y; µ; σ 2 ) = λ sendo µ a média, σ 2 canônico. λλ Γ(λ) yλ 1 exp ( )} y µ + log µ, = 1 λ o quadrado do coeficiente de variação, e θ = 1 µ o parâmetro A unidade do desvio é d(y; µ) = 2 ( y µ + log µ ) y 1, e a função de variância unitária é V (µ) = µ 2, µ > 0. Portanto, a variância de Y é dada por Var(Y ) = σ 2 µ 2.

41 40 - Distribuição Binomial Seja Y Bi(m, µ) denotando uma variável aleatória binomial, representando o número de sucessos em m tentativas independentes de Bernoulli com parâmetro de probabilidade µ. Escrevendo a função de probabilidade de Y em função do parâmetro logístico de θ = log µ/(1 µ) obtém-se: para y = 0,..., m. p (y; m, µ) = O desvio unitário é = ( ) m µ y (1 µ) m y y ( ) m exp{θy m log(1 + e θ )}, y d(y; µ) = 2 {y log yµ } + (1 y) log 1 y1 µ, e a função de variância unitária é dada por V (µ) = µ(1 µ), µ (0, 1). Expressando-se a variância em termos da média µ = mµ 0, obtém-se a expressão Var(Y ) = mv (µ/m) = µ(1 µ/m). - Distribuição Binomial Negativa Seja Y uma variável aleatória binomial negativa, com parâmetro de probabilidade p e parâmetro de forma λ. A função de probabilidade de Y, para y = 0, 1,..., é dada por p (y; p, λ) = = ( ) λ + y 1 p y (1 p) λ y ( ) λ + y 1 exp{θy + λ log(1 e θ )}, y com parâmetro canônico θ = log p < 0 e parâmetro índice λ > 0. O desvio unitário é dado por { y(1 + µ) d(y; µ) = 2 y log µ(1 + y) + log 1 + µ }, 1 + y

42 41 e a função de variância unitária é dada por V (µ) = µ(1 + µ), µ > 0. Expressando-se a variância em termos da média µ = Var(Y ) = λv ( µ λ) ( = µ 1 + µ ) = λ Modelo Exponencial de Dispersão Tweedie λp (1 p) 2. λp 1 p obtém-se a expressão Um caso especial dos modelos exponenciais de dispersão é o modelo Tweedie, denotado Tw p (µ, σ 2 ), com função de variância definida por V (µ) = µ p, µ Ω p (17) em que p é o parâmetro com domínio (, 0] [1, ] e Ω definido na tabela 1. Tabela 1 - Modelos de dispersão exponencial da família Tweedie Distribuições p S Ω Θ Extrema Estável p < 0 R R + R 0 Normal p = 0 R R R Não existe 0 < p < 1 - R + R 0 Poisson p = 1 N 0 R + R Poisson Composta 1 < p < 2 R 0 R + R Gama p = 2 R + R + R Positiva Estável 2 < p < 3 R + R + -R 0 Normal Inversa p = 3 R + R + -R 0 Positiva Estável p > 3 R + R + -R 0 Extrema Estável p = R R R Fonte: Jφrgensen (1997). Por definição, o modelo tem média µ e variância Var(Y ) = σ 2 µ p, com µ Ω p. A Figura 1 mostra a forma da distribuição Tweedie para alguns valores de p.

43 42 Density y Figura 1 - Distribuição Tweedie para variações do valor de p Jφrgensen (1997) mostra, pela tabela 1, que as funções de variância com potência 0 < p < 1 não correspondem a modelos exponenciais de dispersão. Para p < 0 ou p > 2, o modelo Tweedie é gerado pelas distribuições extrema estável ou positiva estável com índice α = p 2 p 1. Para p 0, 1, 2, com desvio unitário para a família Tw p(µ, σ 2 ) dada por [ ] {max(y, 0)} 2 p d p (y; µ) = 2 (1 p)(2 p) yµ1 p 1 p + µ2 p. 2 p com valor Para os casos em que p < 0 e 1 < p < 2, o desvio unitário é finito para y = 0, d p (0; µ) = µ2 p 2 p. O modelo Tweedie é invariante para as transformações de escala (Jφrgensen, 1997), ou seja, Se Y Tw p (µ, σ 2 ), então cy Tw p (cµ, c 2 p σ 2 ), para todo c > 0, já que E(cY)= cµ e Var(cY)= c 2 Var(Y)= c 2 σ 2 µ p = σ 2 c 2 p (cµ) p.

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo 1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42 CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Regressão de Poisson e parentes próximos

Regressão de Poisson e parentes próximos Janeiro 2012 Família Exponencial Seja Y uma variável aleatória. A distribuição de probabilidade de Y pertence à família exponencial se a sua função densidade de probabilidade é da forma ( ) yθ b(θ) f (y

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

Mais sobre Modelos Continuos

Mais sobre Modelos Continuos Mais sobre Modelos Continuos Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 41 Transformação Linear da Uniforme Seja X uma variável aleatória

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

Aplicação dos modelos lineares generalizados na análise do

Aplicação dos modelos lineares generalizados na análise do Aplicação dos modelos lineares generalizados na análise do número de ácaros Ana Paula Coelho Madeira Silva 12 Fabrício Oliveira Fernandes 12 Marcos Antonio Matiello Fadini 12 1 Introdução O estudo das

Leia mais

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates MLG Curso de Modelos Lineares Generalizado - DEST/UFMG 16 de outubro de 2017 Modelo Linear Generalizado Família Exponencial Seja Y a variável de resposta. A distribuição de Y é membro da família exponencial

Leia mais

Modelo de regressão Beta

Modelo de regressão Beta Modelo de regressão Beta Fernando Lucambio Pérez Departamento de Estatística Universidade Federal do Paraná Agosto de 2004 1 Consideremos uma situação em que a variável resposta contínua é restrita ao

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário (bootstrap) Este método foi proposto por Efron

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

Exemplos Modelos Binomiais de Dose-Resposta

Exemplos Modelos Binomiais de Dose-Resposta Exemplos Modelos Binomiais de Dose-Resposta p. 1/14 Exemplos Modelos Binomiais de Dose-Resposta Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Modelos Lineares Generalizados - Métodos de Estimação

Modelos Lineares Generalizados - Métodos de Estimação Modelos Lineares Generalizados - Métodos de Estimação Erica Castilho Rodrigues 07 de Abril de 2014 3 Componentes dos MLG s Os MLG s são compostos por duas partes: componente sistemático e componente aleatório.

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES Telde Natel CUSTÓDIO 1 Décio BARBIN RESUMO: O objetivo deste trabalho foi apresentar um procedimento

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Análise de regressão linear simples. Diagrama de dispersão

Análise de regressão linear simples. Diagrama de dispersão Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

3 Modelos para o Cálculo de IBNR

3 Modelos para o Cálculo de IBNR 3 Modelos para o Cálculo de IBNR 3.1 O Método de Mack Tomas Mack em (24) propõe um modelo probabilístico para o método Chain Ladder que fornece estimativas de provisão idênticas à técnica Chain Ladder

Leia mais

Exemplos Regressão Dados de Contagem

Exemplos Regressão Dados de Contagem Exemplos Regressão Dados de Contagem p. 1/26 Exemplos Regressão Dados de Contagem Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de 2011 Exemplos

Leia mais

Exemplos Modelos de Quase-Verossimilhança

Exemplos Modelos de Quase-Verossimilhança Exemplos Modelos de Quase-Verossimilhança p. 1/40 Exemplos Modelos de Quase-Verossimilhança Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08 Teoria das Filas aplicadas a Sistemas Computacionais Aula 08 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas

Leia mais

MAE Modelos Lineares Generalizados 2 o semestre 2017

MAE Modelos Lineares Generalizados 2 o semestre 2017 MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z?

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. viali@mat.ufrgs.br http://www.mat.ufrgs.br/~viali/ Uma variável aleatória X tem uma distribuição normal se sua fdp for do tipo: f(x) 1.e 1 2. x µ σ 2, x R 2π. σ com - < µ < e σ >

Leia mais

Modelo Linear Generalizado Exponencial Potência

Modelo Linear Generalizado Exponencial Potência Modelo Linear Generalizado Exponencial Potência Cristian Villegas 1 2 1 Introdução Os modelos lineares normais são amplamente aplicados em diversas áreas do conhecimento para modelar a média de dados contínuos

Leia mais

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8) 4 Metodologia Serão apresentadas duas formas de se estimar a persistência. A primeira é de forma mais agregada e se utiliza de dados em forma de triângulos de run-off e é conhecida como Chain Ladder, uma

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

Inferência para CS Modelos univariados contínuos

Inferência para CS Modelos univariados contínuos Inferência para CS Modelos univariados contínuos Renato Martins Assunção DCC - UFMG 2014 Renato Martins Assunção (DCC - UFMG) Inferência para CS Modelos univariados contínuos 2014 1 / 42 V.A. Contínua

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR - 20160239 LUAN FIORENTIN GRR - 20160219 MODELAGEM DE DADOS DE ÓBITOS POR AGRESSÕES NO ESTADO DE SÃO PAULO NO ANO DE 2016 CURITIBA Novembro

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson Wagner Hugo Bonat - LEG/DEST, UFPR 1 Resumo: Este texto descreve de forma rápida o processo de estimação baseado em Verossimilhança

Leia mais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais 1/55 Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais Enrico A. Colosimo-UFMG www.est.ufmg.br/ enricoc 2/55 Respostas Longitudinal Não-Gaussiana 1 Y ij, i = 1,..., N; j = 1,...,

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial UNIVERSIDADE FEDERAL DO PARANÁ Rafael Morciani Alves da Silva Maike Willian Martins dos Santos Mateus Gemelli Ramos Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão

Leia mais

Estudo Teórico sobre Modelos Lineares Generalizados com Aplicação a Dados Genéticos

Estudo Teórico sobre Modelos Lineares Generalizados com Aplicação a Dados Genéticos UNIVERSIDADE ESTADUAL DA PARAÍBA CENTRO DE CIÊNCIAS E TECNOLOGIA DEPARTAMENTO DE ESTATÍSTICA Andreza Jardelino da Silva Estudo Teórico sobre Modelos Lineares Generalizados com Aplicação a Dados Genéticos

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 3 4 5 6 7 8 9 10 11 1 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

4.1. ESPERANÇA x =, x=1

4.1. ESPERANÇA x =, x=1 4.1. ESPERANÇA 139 4.1 Esperança Certamente um dos conceitos mais conhecidos na teoria das probabilidade é a esperança de uma variável aleatória, mas não com esse nome e sim com os nomes de média ou valor

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CESPE/UnB FUB/03 fa 5 4 3 CONHECIMENTOS ESPECÍFICOS 60 As distribuições B e C possuem os mesmos valores para os quartis Q e Q, e o quartil superior em B corresponde ao quartil central (Q ) da distribuição

Leia mais

Modelos Lineares Generalizados - Análise de Resíduos

Modelos Lineares Generalizados - Análise de Resíduos Modelos Lineares Generalizados - Análise de Resíduos Erica Castilho Rodrigues 28 de Junho de 2013 3 Assim como em Regressão Linear, também precisamos fazer Análise de Resíduos para os MLG s. São semelhantes

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros

O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros Eriton Barros dos Santos 1 Sílvia Maria de Freitas 2 1 Introdução Dados de contagem são comuns em diversas áreas.

Leia mais

MODELOS LINEARES GENERALIZADOS MISTOS PARA DADOS LONGITUDINAIS

MODELOS LINEARES GENERALIZADOS MISTOS PARA DADOS LONGITUDINAIS MODELOS LINEARES GENERALIZADOS MISTOS PARA DADOS LONGITUDINAIS SILVANO CESAR DA COSTA Tese apresentada à Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo, para obtenção do título

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística CE085 - Estatística Inferencial Função de Verossimilhança e suas derivadas Prof. Wagner Hugo Bonat Laboratório de Estatística e Geoinformação - LEG Curso de Bacharelado em Estatatística Universidade Federal

Leia mais

Inferência para CS Tópico 10 - Princípios de Estimação Pontual

Inferência para CS Tópico 10 - Princípios de Estimação Pontual Inferência para CS Tópico 10 - Princípios de Estimação Pontual Renato Martins Assunção DCC - UFMG 2013 Renato Martins Assunção (DCC - UFMG) Inferência para CS Tópico 10 - Princípios de Estimação Pontual

Leia mais

Modelos Lineares Generalizados - Análise de Resíduos

Modelos Lineares Generalizados - Análise de Resíduos Modelos Lineares Generalizados - Análise de Resíduos Erica Castilho Rodrigues 15 de Maio de 2014 Tipos de Resíduos 3 Assim como em Regressão Linear, também precisamos fazer Análise de Resíduos para os

Leia mais

MAE Planejamento e Pesquisa II

MAE Planejamento e Pesquisa II MAE0327 - Planejamento e Pesquisa II EXPERIMENTOS/ESTUDOS NÃO-BALANCEADOS COM FATORES FIXOS - PARTE 1 7 de agosto de 2016 Denise A Botter MAE0327 7 de agosto de 2016 1 / 1 PLANEJAMENTO E PESQUISA I Estudos

Leia mais

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz. Modelagem de mortalidade natural e superdispersão em dados entomológicos

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz. Modelagem de mortalidade natural e superdispersão em dados entomológicos Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Modelagem de mortalidade natural e superdispersão em dados entomológicos Mariana Ragassi Urbano Tese apresentada para obtenção do

Leia mais

Redes Complexas Aula 7

Redes Complexas Aula 7 Redes Complexas Aula 7 Aula retrasada Lei de potência Distribuição Zeta Propriedades Distribuição Zipf Exemplo Wikipedia Aula de hoje Distribuição de Pareto Medindo lei de potência Estimando expoente Exemplos

Leia mais

Modelos de Regressão

Modelos de Regressão Renato Martins Assunção DCC - UFMG 2015 Renato Martins Assunção (DCC - UFMG) 2015 1 / 19 Exemplo de preço de apto Y = y 1 y 2 y 1499 y 1500 b 0 1 1 1 1 + b 1 área 1 área 2 área 1499 área 1500 + b 2 idade

Leia mais

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples - parte III 1 Modelos de Regressão Linear Simples - parte III Erica Castilho Rodrigues 20 de Setembro de 2016 2 3 4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada

Leia mais

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2 SUMÁRIO 1 CONCEITOS BÁSICOS, 1 1.1 Introdução, 1 1.2 Conceitos Fundamentais, 2 1.2.1 Objetivo, 2 1.2.2 População e amostra, 2 1.3 Processos estatísticos de abordagem, 2 1.4 Dados estatísticos, 3 1.5 Estatística

Leia mais

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100% . Definição dos acontecimentos: M T-shirt tem manchas C T-shirt tem costuras defeituosas D T-shirt é defeituosa A Preço da t-shirt é alterado a) PM) = % PC) = 5% PM C) = % LEEC Probabilidades e Estatística

Leia mais

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) PROVAS Ciência da Computação 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) Ajuste de Curvas Objetivo Ajustar curvas pelo método dos mínimos quadrados 1 - INTRODUÇÃO Em geral, experimentos

Leia mais

Medida de Risco via Teoria de Valores Extremos. Análise de Risco (8) R.Vicente

Medida de Risco via Teoria de Valores Extremos. Análise de Risco (8) R.Vicente Medida de Risco via Teoria de Valores Extremos Análise de Risco (8) R.Vicente 1 Resumo EVT: Idéia geral Medidas de risco Teoria de Valores Extremos (EVT) Distribuição de Máximos Distribuição de Exceedances

Leia mais

CE219 - Controle Estatístico de Qualidade

CE219 - Controle Estatístico de Qualidade CE219 - Controle Estatístico de Qualidade Cesar Augusto Taconeli 30 de maio, 2017 Cesar Augusto Taconeli CE219 - Controle Estatístico de Qualidade 30 de maio, 2017 1 / 96 Aula 2 - Métodos estáticos para

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP.   lane. Ref: Kim e Nelson (1999) e Hamilton (1990) Markov Switching Models Profa. Airlane Alencar Depto de Estatística - IME-USP www.ime.usp.br/ lane Ref: Kim e Nelson (1999) e Hamilton (1990) 1 Objetivo Mudança nos parâmetros de um modelo de regressão

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS

COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS Tânia Fernandes BOGUTCHI 1 Enrico Antônio COLOSIMO 2 Joel Alves LAMOUNIER 3 RESUMO: Modelos lineares generalizados para resposta binária ou

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja Natália da Silva Martins 1, Davi Butturi-Gomes 1, Lucas Souza Capelaro 2 1 Instituto de Ciências Exatas,

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS quantidade São Paulo (j = 1) Rio de Janeiro (j = 2) Minas Gerais (j = 3) Rio Grande do Sul (j = 4) total casos novos (X, em milhões) casos pendentes (Y, em milhões) processos

Leia mais

Distribuições de Probabilidade Contínuas 1/19

Distribuições de Probabilidade Contínuas 1/19 all Distribuições de Probabilidade Contínuas Professores Eduardo Zambon e Magnos Martinello UFES Universidade Federal do Espírito Santo DI Departamento de Informática CEUNES Centro Universitário Norte

Leia mais

Ajuste e comparação de modelos para dados grupados e censurados

Ajuste e comparação de modelos para dados grupados e censurados Ajuste e comparação de modelos para dados grupados e censurados 1 Introdução José Nilton da Cruz 1 Liciana Vaz de Arruda Silveira 2 José Raimundo de Souza Passos 2 A análise de sobrevivência é um conjunto

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

Lucas Santana da Cunha de junho de 2018 Londrina

Lucas Santana da Cunha de junho de 2018 Londrina Variável aleatória contínua: Lucas Santana da Cunha email: lscunha@uel.br http://www.uel.br/pessoal/lscunha/ 13 de junho de 2018 Londrina 1 / 26 Esperança e variância de Y Função de distribuição acumulada

Leia mais

Distribuições de Probabilidade

Distribuições de Probabilidade Distribuições de Probabilidade 7 6 5 4 3 2 1 0 Normal 1 2 3 4 5 6 7 8 9 10 11 Exemplos: Temperatura do ar 20 18 16 14 12 10 8 6 4 2 0 Assimetrica Positiva 1 2 3 4 5 6 7 8 9 10 11 Exemplos: Precipitação

Leia mais

Modelo g.l. SQ Retas concorrentes ,46 Retas paralelas ,22 Retas com intercepto comum ,49 Retas coincidentes ,23

Modelo g.l. SQ Retas concorrentes ,46 Retas paralelas ,22 Retas com intercepto comum ,49 Retas coincidentes ,23 1 1) Em estudo observacional sobre comportamento de sono de 58 espécies de animais, uma das variáveis respostas foi o número total de horas de sono por dia (Y). O interesse desse estudo estava em relacionar

Leia mais

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3. 3. Ajuste do Modelo 4. Modelo Restrito Resíduos Resíduos 1 M = I- X(X X) -1 X Hipóteses do modelo Linearidade significa ser linear nos parâmetros. Identificação: Só existe um único conjunto de parâmetros

Leia mais

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016. de Matemática Financeira e Estatística do ISS Teresina, aplicada em 8/08/016. 11 - (ISS Teresina 016 / FCC) Joana aplicou todo seu capital, durante 6 meses, em bancos ( e Y). No Banco, ela aplicou 37,5%

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Capítulo 2. Variáveis Aleatórias e Distribuições

Capítulo 2. Variáveis Aleatórias e Distribuições Capítulo 2 Variáveis Aleatórias e Distribuições Experimento Aleatório Não existe uma definição satisfatória de Experimento Aleatório. Os exemplos dados são de fenômenos para os quais modelos probabilísticos

Leia mais

Grupo I. (a) A função de probabilidade marginal de X, P (X = x), é dada por

Grupo I. (a) A função de probabilidade marginal de X, P (X = x), é dada por Probabilidades e Estatística + Probabilidades e Estatística I Solução do Exame de 2 a chamada 3 de Fevereiro de 2003 LEFT + LMAC Grupo I (a) A função de probabilidade marginal de X, P (X = x), é dada por

Leia mais