Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB

Tamanho: px
Começar a partir da página:

Download "Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB"

Transcrição

1 Francisco William Pereira Marciano Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB Fortaleza CE Setembro / 2009

2 Francisco William Pereira Marciano Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB Relatório final de atividades apresentado à Pró- Reitoria de Pesquisa e Pós-Graduação referente ao projeto de Iniciação Científica de mesmo título, período 2008/2009. Orientadora: Prof a. Dr a. Sílvia Maria de Freitas Co-orientador: Prof. Dr. Juvêncio Santos Nobre UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA - DEMA CURSO DE ESTATÍSTICA Fortaleza CE Setembro / 2009

3 AGRADECIMENTOS A Deus e ao mestre Jesus, o primeiro pela oportunidade, saúde e disposição para realizar este trabalho, o segundo pelos ensinamentos deixados que procuro vivenciar em minha vida. Ao CNPq, pelo suporte financeiro concedido. À minha família, em especial aos meus pais, Moacir Marciano e Maria Pereira Marciano, pelo carinho, confiança e união indispensáveis nessa caminhada e por todo o suporte necessário para que eu chegasse até aqui. À Prof a. Dr a. Silvia Maria de Freitas, pela orientação, paciência e ensinamentos repassados, sem a qual esse trabalho não seria possível; incentivadora e guia nos momentos de dificuldade, sem dúvida influenciou tomadas de decisões importantes em minha vida. Agradeço a confiança depositada em meu trabalho, visto os dois projetos de iniciação científica ao qual fui orientado. Ao Prof. Dr. Juvêncio Santos Nobre, pela orientação, incentivo, colaboração e ensinamentos prestados, sem o qual a realização desse trabalho seria bem mais difícil. Ao Prof. Dr. João Maurício Araújo Mota, pela colaboração no primeiro projeto de iniciação científica que serviu de suporte para a conclusão desse trabalho, além é claro, do incentivo e dos ensinamentos prestados nas disciplinas ao qual fui seu aluno. Aos demais Professores e funcionários do Departamento de Estatística e Matemática Aplicada que contribuíram na minha formação acadêmica. Enfim, à todos os colegas e amigos do curso de Estatística que fizeram essa caminhada ser mais agradável.

4 RESUMO A distribuição de Poisson é muito utilizada para descrever dados de contagem. Uma importante propriedade dessa variável aleatória é a igualdade entre a média e variância. Em situações em que se tem uma variável resposta com dados de contagem e deseja-se estudar a relação com variáveis explicativas, uma escolha natural é o uso do modelo de regressão Poisson, que pertence à classe especial de Modelos Lineares Generalizados (MLG s). Na prática, não é raro encontrar conjuntos de dados de contagem que apresentem uma alta freqüência de valores zero, acima da freqüência esperada pelo modelo, fazendo com que a variância empírica (ou amostral) exceda à variância nominal do modelo - àquela assumida pela suposição da distribuição em estudo. Este fenômeno é conhecido na literatura como superdispersão, que no caso da distribuição Poisson, é chamada variação extra-poisson (Var(Y i ) = µφ), sendo φ > 0 o parâmetro que ocasiona a fonte extra de variabilidade, o que pode causar sérios problemas como a subestimação do erro padrão dos estimadores e o conseqüente aumento do nível de significância. Neste trabalho será abordado uma aplicação do Modelo Poisson padrão e dos Modelos Inflacionados de Zeros para dados de contagem, Zero Inflated Poisson - ZIP e Zero Inflated Negative Binomial - ZINB, utilizando-se as técnicas dos MLG s através de um conjunto de dados reais, onde algumas alterações foram implementadas no conjunto de dados a fim de aplicar os modelos supracitados. Após a realização dos ajustes uma análise de diagnóstico é discutida para verificar possíveis transgressões aos ajustes dos modelos considerados juntamente com a análise gráfica para verificar a adequabilidade dos modelos em questão em relação a variável de interesse no estudo, o número de abelhas que coletam polens no decorrer do dia.

5 SUMÁRIO Lista de Figuras Lista de Tabelas Introdução p. 9 1 Modelos Lineares Generalizados p Introdução p Modelos de Dispersão Exponencial p A Família Exponencial de Distribuições p A Família de Dispersão Exponencial de Distribuições p O Modelo Linear Generalizado p Modelagem Estatística p Definição p A medida de Deviance p O Critério de Informação de Akaike - AIC p Modelos para Dados de Contagem p Introdução p O Modelo Poisson Padrão p O Modelo Poisson Inflacionado de Zeros (ZIP) p O Modelo Binomial Negativo Inflacionado de Zeros (ZINB) p Principais Tipos de Resíduos Utilizados em MLG s p. 24

6 3.1 Introdução p Resíduos de Pearson p Resíduos de Pearson estudentizados p Resíduos Componentes do Desvio p Resíduos Componentes do Desvio Estudentizados p Tipos de Gráficos p Gráfico de índices p Resíduos versus valores ajustados p Gráfico semi-normal de probabilidades ( half normal plots )..... p Gráfico normal de probabilidades ( normal plots ) com envelopes.. p Aplicação p Introdução p Modelo Poisson p Modelo Poisson Inflacionado de Zeros (ZIP) p Modelo Binomial Negativo Inflacionado de Zeros (ZINB) p Ajuste do 2 o grau para os modelos Poisson, ZIP e ZINB p Ajuste do 3 o grau para os modelos Poisson, ZIP e ZINB p. 37 Considerações Finais p. 44 Referências p. 46 Apêndice p. 48 Apêndice A - Função para construção do envelope simulado Poisson p. 48 Apêndice B - Resíduos de Pearson e Componentes do Desvio Estudentizados... p. 54 Modelo ZIP p. 54 Modelo ZINB p. 58

7 LISTA DE FIGURAS 1 Valores observados e modelo ajustado Poisson p Envelope simulado para os resíduos de Pearson no modelo Poisson p Envelope simulado para os Componentes do Desvio no modelo Poisson... p Valores observados e modelo ajustado ZIP p Envelope simulado dos resíduos de Pearson para o modelo ZIP p Envelope seminormal de probabilidades para os resíduos de Pearson no modelo ZIP p Envelope simulado dos resíduos Componentes do Desvio para o modelo ZIP. p Envelope seminormal de probabilidades para os resíduos Componentes do Desvio no modelo ZIP p Valores observados e modelo ajustado ZINB p Envelope simulado dos resíduos de Pearson para o modelo ZINB p Envelope seminormal de probabilidades para os resíduos de Pearson no modelo ZINB p Envelope simulado para os resíduos Componentes do Desvio para o modelo ZINB p Envelope seminormal de probabilidades para os resíduos Componentes do Desvio no modelo ZINB p Valores observados e modelos 2 o grau ajustados p Envelope simulado dos resíduos de Pearson para o modelo Poisson 2 o grau. p Envelope simulado dos resíduos Componentes do Desvio para o modelo Poisson 2 o grau p Envelope simulado dos resíduos de Pearson para o modelo ZIP 2 o grau.... p. 39

8 18 Envelope simulado dos resíduos Componentes do Desvio para o modelo ZIP 2 o grau p Envelope simulado dos resíduos de Pearson para o modelo ZINB 2 o grau... p Envelope simulado dos resíduos Componentes do Desvio para o modelo ZINB 2 o grau p Valores observados e modelos 3 o grau ajustados p Envelope simulado dos resíduos de Pearson para o modelo Poisson 3 o grau. p Envelope simulado dos resíduos Componentes do Desvio para o modelo Poisson 3 o grau p Envelope simulado dos resíduos de Pearson para o modelo ZIP 3 o grau.... p Envelope simulado dos resíduos Componentes do Desvio para o modelo ZIP 3 o grau p. 42

9 LISTA DE TABELAS 1 Distribuições pertencentes à família de dispersão exponencial p Funções de ligação canônicas para algumas distribuições conhecidas..... p Estimativas dos parâmetros do modelo Poisson e nível descritivo p Estimativas dos parâmetros do modelo ZIP e nível descritivo p Estimativas dos parâmetros do modelo ZINB e nível descritivo p Estimativas dos parâmetros 2 o grau dos modelos Poisson, ZIP e ZINB e nível descritivo p Estimativas dos parâmetros 3 o grau dos modelos Poisson, ZIP e ZINB e nível descritivo p. 41

10 9 INTRODUÇÃO Uma etapa importante na análise do ajuste de um modelo de regressão é a verificação de possíveis violações (falhas) das suposições feitas para o modelo, especialmente para a parte aleatória e para a parte sistemática do modelo, bem como a existência de observações extremas com alguma interferência desproporcional nos resultados do ajuste (Paula, 2004). Assim como ocorre no modelo linear clássico de regressão, essa falhas também acontecem nos modelos lineares generalizados (MLG). De acordo com Cordeiro e Demétrio (2007), o que acontece nos MLG s, na prática, é uma combinação de diferentes tipos de falhas: falhas sistemáticas, ocasionadas pela violação do modelo (escolha inadequada da função de variância, da função de ligação e da matriz do modelo, ou ainda pela definição errada da escala da variável dependente ou das variáveis explanatórias) e falhas isoladas, causadas porque os pontos estão nos extremos da amplitude de validade da covariável, ou porque eles estão realmente errados como resultado de uma leitura errada ou uma transcrição mal feita, ou ainda porque algum fator não controlado influenciou a sua obtenção. A análise de diagnóstico refere-se a um conjunto de procedimentos utilizados para realização de um diagnóstico das suposições associadas aos modelos em estudo, que teve início com Cox e Snell (1968), com a chamada análise de resíduos, utilizada para detectar a presença de pontos extremos e avaliar a adequação da distribuição proposta para a variável resposta. De uma forma geral, as técnicas usadas para análise de resíduos e diagnósticos para modelos lineares generalizados são semelhantes às utilizadas para modelos lineares clássicos, resguardadas as devidas adaptações. O modelo de Poisson inflacionado de zeros (ZIP) e o modelo Binomial Negativo inflacionado de zeros (ZINB) estão descritos em Ridout, Demétrio e Hinde (1998), através de uma revisão sobre modelos que se ajustam a dados de contagem inflacionados de zeros. Todos estes modelos fazem parte, na realidade, de um conjunto de metodologia bem mais amplo, denominado Modelos Lineares Generalizados (Cordeiro, 1986; McCullagh & Nelder, 1989). O objetivo do trabalho é aplicar a metodologia dos (MLG s) em um conjunto de dados reais, onde foram acrescidos zeros no conjunto de dados para contemplar os modelos a ser ajustados

11 Introdução 10 e verificar o impacto desta característica de excessos de zeros na análise de diagnóstico dos modelos em estudo.

12 11 1 MODELOS LINEARES GENERALIZADOS 1.1 Introdução Os Modelos Lineares Generalizados (MLG s) são ferramentas poderosas na análise de dados onde o interesse é o estudo da relação entre uma variável resposta, medida em escala contínua ou discreta, em função de diferentes variáveis preditoras (quantitativas e/ou qualitativas). Ocorre em alguns casos que para se utilizar determinada metodologia de análise são requeridas algumas pressuposições que nem sempre são atendidas e que, portanto, o estatístico não pode negligenciar sob pena de incorrer em elevadas taxas de erros e inferências pouco confiáveis. No intuito de validar a metodologia proposta, os estatísticos utilizam a mudança adequada da escala da variável aleatória por meio de transformações nestes dados. Com o advento dos MLG s, os problemas com escalas foram bastante reduzidos. Na verdade, trata-se de uma extensão dos modelos lineares, desenvolvida por Nelder e Wedderburn (1972), para dados não normalmente distribuídos. Esta metodologia motiva-se no fato que os efeitos sistemáticos são linearizados por uma transformação adequada dos valores esperados, permitindo aos valores ajustados variarem dentro da amplitude real das respostas. 1.2 Modelos de Dispersão Exponencial Os Modelos Lineares Generalizados são restritos a membros de uma particular família de distribuições que tem ótimas propriedades estatísticas. Na realidade, esta restrição surge por puras razões técnicas: o algoritmo numérico, IWLS (Interated Weighted Least Squares) usado para estimação, somente funciona dentro desta família. Com o desenvolvimento computacional dos últimos anos, esta limitação seria facilmente ultrapassada; no entanto, nenhum software, para uma família maior de modelos de regressão, está sendo atualmente distribuído. Agora trataremos mais especificamente desta família.

13 1.2 Modelos de Dispersão Exponencial A Família Exponencial de Distribuições Considere um conjunto de variáveis repostas aleatórias e independentes, Z i (i = 1,, n) e que a função de probabilidade, no caso discreto, ou função densidade de probabilidade, no caso contínuo, pode ser escrito da seguinte maneira f (z i ; ξ i ) = r(z i )s(ξ i )exp[t(z i )u(ξ i )] = exp[t(z i )u(ξ i ) + v(z i ) + w(ξ i )] (1.1) com ξ i um parâmetro de localização indicando a posição onde a distribuição varia dentro do intervalo dos valores possíveis da resposta. Qualquer distribuição que pode ser escrita deste modo é dita membro da família exponencial uniparamétrica. Note a dualidade do valor observado, z i, da variável aleatória e o parâmetro, ξ i. A forma canônica para a variável aleatória, o parâmetro, e a família é obtida por fazer y = t(z) e θ = u(ξ i ). Se essas forem transformações 1 a 1, elas simplificam, mas não muda fundamentalmente o modelo que agora torna-se f (y i ; θ i ) = exp[y i θ i b(θ i ) + c(y i )] (1.2) onde b(θ i ) é a constante de normalização da distribuição. Agora, Y i (i = 1,, n) é um conjunto de variáveis aleatórias independentes com médias µ i, onde podemos escrever que y i = µ i + ɛ i. Exemplos: Duas das distribuições discretas mais conhecidas são incluídas nesta família. 1. Distribuição Poisson f (y i ; µ i ) = µ i y i e µ i y i! = exp[y i log(µ i ) µ i log(y i!)] onde θ i = log(µ i ), b(θ i ) = exp(θ i ), e c(y i ) = log(y i!). 2. Distribuição Binomial ) ( ni y f (y i ; µ i ) = π i i (1 π i ) n i y i y i [ ( ) π i = exp y i log + n i log(1 π i ) + log 1 π i onde θ i = log ( π i 1 π i ), b(θi ) = n i log[1 + exp(θ i )], e c(y i ) = log ( n i y i ). ( ni y i )]

14 1.2 Modelos de Dispersão Exponencial A Família de Dispersão Exponencial de Distribuições A família exponencial pode ser generalizada por incluir um parâmetro de escala (constante), em geral φ, na distribuição tal que [ ] yi θ i b(θ i ) f (y i ; θ i, φ) = exp + c(y i, φ) a i (φ) onde θ i também é a forma canônica do parâmetro de localização, alguma função da média µ i. Exemplos: Duas das distribuições contínuas mais conhecidas são incluídas nesta família. 1. Distribuição Normal [ f (y i ; µ i, σ 2 1 ) = exp (y ] i µ i ) 2 2πσ 2 2σ 2 = exp {[y i µ i µ ] i σ y 2 i 2 2σ 1 } 2 2 log(2πσ2 ) onde θ i = µ i, b(θ i ) = θ i 2 /2, a i (φ) = σ 2, e c(y i, φ) = [y i 2 /φ + log(2πφ)]/2. 2. Distribuição Gama ( ) ν ν y ν 1 i e νy i µ i f (y i ; µ i, ν) = µ i Γ(ν) {[ = exp y ] } i log(µ i ) ν + (ν 1) log(y i ) + ν log(ν) log[γ(ν)] µ i (1.3) onde θ i = 1/µ i, b(θ i ) = log( θ i ), a i (φ) = 1/ν, e c(y i, φ) = (ν 1) log(y i ) + ν log(ν) log[γ(ν)]. Note que os exemplos acima para a família exponencial também são membros da família de dispersão exponencial, com a i (φ) = 1. Com φ conhecido, esta família pode ser tomada como um caso especial da família exponencial uniparamétrica; y i é então a estatística suficiente para θ i em ambas as famílias. A Tabela (1) apresenta algumas Distribuições importantes na Família (1.3).

15 1.2 Modelos de Dispersão Exponencial 14 Tabela 1: Distribuições pertencentes à família de dispersão exponencial Distribuição φ θ b(θ) c(y, φ) Normal: N(µ, σ 2 ) σ 2 σ 2 µ 1 [ ] y σ + 2 log(2πσ2 ) Poisson: P(µ) 1 log µ e θ log y! ( ) ( ) π n Binomial: B(n, π) 1 log n log[1 + e θ ] log 1 π y ( ) [ µ Γ(k + y) Binomial Negativa: BN(µ, k) 1 log k log(1 e θ ) log µ + k Γ(k)y! ] Gama: G(µ, ν) ν 1 1 µ Normal Inversa: IG(µ, σ 2 ) σ 2 1 2µ 2 log( θ) (ν 1) log(yi) + ν log(ν) log[γ(ν)] [ ] log(2πσ 2 y 3 ) + 1 yσ 2 FONTE: Cordeiro e Demétrio (2007)

16 1.3 O Modelo Linear Generalizado O Modelo Linear Generalizado Modelagem Estatística Modelos matemáticos são uma representação simplificada da realidade, sendo bastante explorados com o desenvolvimento científico e tecnológico. Como Box já falara: todos os modelos são errados, mas alguns são úteis, ratifica que não se deve acreditar que um modelo seja verdadeiro, embora muito da inferência estatística teórica seja baseada somente nesta suposição. Os modelos matemáticos podem ser determinísticos ou probabilísticos. Quando eles envolvem uma componente probabilística, eles são chamados de modelos estatísticos. A classe de modelos mais importante na atualidade, incluem os Modelos Lineares Generalizados, assim chamados por generalizarem o modelo linear clássico baseado na distribuição normal. Esta generalização apresenta dois aspectos: diferente da regressão linear, esses modelos podem envolver uma variedade de distribuições selecionadas de uma família especial, a família dos modelos de dispersão exponencial, onde envolvem transformações da média, através do que chamamos de função de ligação, ligando a parte regressora a média de uma dessas distribuições Definição Os modelos lineares generalizados podem ser definidos a partir de uma única variável de interesse Y e a respectiva associação com outras variáveis, chamadas de variáveis exploratórias x 1,, x n. Desta forma, para n observações de uma amostra, o modelo linear generalizado envolve três componentes: 1. Componente aleatório: Os Y i (i = 1,, n) são variáveis aleatórias independentes com médias µ i. Elas compartilham da mesma distribuição pertencendo a família de dispersão exponencial dada por (1.3), ou seja, E(Y i ) = µ i, i = 1,, n, sendo φ > 0 um parâmetro de dispersão e o parâmetro θ i denominado de parâmetro canônico. As funções b(.) e c(.) são conhecidas e podemos obter a E(Y i ) e Var(Y i ) como segue abaixo: E(Y i ) = µ i = b (θ i )

17 1.3 O Modelo Linear Generalizado 16 e Var(Y i ) = φb (θ i ) = φv i, em que V i = V(µ i ) = dµ i /dθ i é denominada de função de variância e depende unicamente da média µ i. A família exponencial de distribuições desempenha um papel importante na teoria dos MLG s uma vez que ela permite incorporar dados que exibem assimetria, dados de natureza discreta ou contínua e dados que são restritos a um intervalo do conjunto dos reais, como o intervalo (0, 1). 2. Componente sistemático: A estrutura linear do modelo é composta pelas variáveis explicativas que entram na forma de uma soma linear de seus efeitos, ou seja η i = p r=1 x ir β j = x t iβ ou η = Xβ, (1.4) sendo X = (x 1,, x n ) t a matriz de delineamento do modelo, β = (β 1,, β p ) t o vetor de parâmetros e η = (η 1,, η n ) t o preditor linear. Se um parâmetro tem valor conhecido, o termo correspondente na estrutura linear é chamado offset. 3. Função de ligação: Se θ i = η i nossa definição de modelo linear generalizado está completa. Contudo, a generalização para transformações não canônicas da média requer um componente adicional se a estrutura linear é rejeitada. O relacionamento entre a média da i-ésima observação e o preditor linear serão dados por uma função de ligação, g i ( ): η i = g i (µ i ) = x t i β Esta função deve ser monotônica e diferenciável. Geralmente a mesma função de ligação é usada para todas as observações. Desta forma, a função de ligação canônica é a função que transforma a média para um parâmetro de localização canônico de um membro da família de dispersão exponencial. Com a função de ligação canônica, todos os parâmetros desconhecidos da estrutura linear apresenta estatística suficiente se a distribuição da resposta é um membro da família de dispersão exponencial e o parâmetro de escala for conhecido. Contudo, a função de ligação é somente um artifício para simplificar os métodos numéricos de estimação quando um modelo envolve uma parte linear, isto é, permitir que o algoritmo IWLS funcione. Para modelos de regressão não-linear ela perde o significado (Lindsey, 1974b).

18 1.3 O Modelo Linear Generalizado 17 Tabela 2: Funções de ligação canônicas para algumas distribuições conhecidas Distribuição Função de ligação canônica Normal Identidade: η = µ Poisson Logarítmica: η = log µ Binomial Logística: η = log ( ) ( π µ ) 1 π = log n µ Gama Recíproca: η = 1 µ Normal Inversa Recíproca do quadrado: η = 1 µ 2 FONTE: Cordeiro e Demétrio (2007) Como podemos perceber pelo exposto, para especificarmos o MLG, os parâmetros θ i da família de distribuições (1.3) não são de interesse direto (pois há um para cada observação) mas sim um conjunto menor de parâmetros β 1,, β p tais que uma combinação linear dos β s seja igual a alguma função do valor esperado de Y i A medida de Deviance No processo de seleção de um modelo, uma série de modelos de regressão estarão sob consideração. É útil introduzir uma terminologia para descrever as várias possibilidades que podem ser levadas em consideração. Modelo Saturado ou Completo: O modelo tem n parâmetros especificados pelas médias µ 1,, µ n linearmente independentes. Como o modelo atribui toda a variação dos dados ao componente sistemático, ele ajusta-se perfeitamente, reproduzindo os próprios dados, no entanto, de difícil interpretação. Modelo Nulo: Este modelo tem um valor médio comum para todas as observações. É o modelo mais simples, no entanto, não representa adequadamente a estrutura dos dados. Modelo Maximal: Neste caso, temos o maior e mais complexo modelo a ser considerado. Ele inclui o maior número de termos que pode ser considerado. Modelo Minimal: Este modelo contém o menor número de termos necessário para o ajuste; por exemplo, marginais fixa para uma tabela de contingência. Modelo Corrente ou Sob Pesquisa: Este modelo está entre os modelos maximal e minimal e é o modelo que está sob investigação. Levando em consideração os vários modelos possíveis, verificamos que o modelo nulo é simples demais e o modelo saturado não é informativo, pois não resume os dados, simplesmente os repete. Nesse ponto, o problema é determinar a utilidade de um parâmetro extra

19 1.3 O Modelo Linear Generalizado 18 no modelo corrente (sob pesquisa) ou, então, verificar a falta de ajuste induzida pela omissão dele. Para avaliar os modelos é necessário introduzir medidas de discrepância para medir o ajuste de um modelo. Nelder e Wedderburn (1972) propuseram, como medida de discrepância, a deviance (traduzida como desvio por Cordeiro (1986)), com expressão dada por: S p = 2(ˆl n ˆl p ), onde ˆl n e ˆl p são os máximos do logaritmo da função de verossimilhança para os modelos saturado e corrente (sob pesquisa), respectivamente. Podemos observar que o modelo saturado serve como base de medida do ajuste de um modelo sob pesquisa (modelo corrente). O logaritmo da função de verossimilhança como função apenas de β (considerando-se o parâmetro de dispersão φ conhecido) dado um vetor y, usando-se a expressão (1.3) tem-se: e ˆl n = 1 φ ˆl p = 1 φ n [y i θ i b( θ i )] + 1 φ i=1 n [y i ˆθ i b( ˆθ i )] + 1 φ i=1 n c(y i, φ) i=1 n c(y i, φ), sendo θ i = q(y i ) e ˆθ i = q(µ i ) as estimativas de máxima verossimilhança do parâmetro canônico sob os modelos saturado e corrente, respectivamente. Desta forma, temos que S p = D p φ = 2 φ i=1 n [y i ( θ i ˆθ i ) + b( ˆθ i ) b( θ i )], (1.5) i=1 onde S p e D p são denominados de desvio escalonado e desvio, respectivamente. O desvio é definido apenas como função dos dados y e das médias ajustadas ˆµ. O desvio escalonado pode ainda ser expresso como segue S p = 1 φ n d 2 i, sendo que d i 2 mede a discrepância dos logaritmos das funções de verossimilhança observada e ajustada, para cada observação i, sendo denominado de componente do desvio. Podemos verificar que o desvio equivale a uma constante menos duas vezes o máximo do logaritmo da função de verossimilhança para o modelo corrente, isto é, i=1 S p = 2ˆl n 2ˆl p = constante 2ˆl p. Em geral, para os casos em que o desvio depende do parâmetro de dispersão φ 1,

20 1.3 O Modelo Linear Generalizado 19 em (Jorgensen, 1987) o seguinte resultado para a distribuição nula da função desvio pode ser utilizado: S p χ 2 n p, quando φ. Isto quer dizer, que quando a dispersão é pequena, é razoável comparar os valores de S p com os percentis da χ 2 n p. Lembrar que a E(χ 2 ) = k, isso significa que o valor do desvio próximo de k (n p) pode ser uma indicação de que o modelo está bem ajustado O Critério de Informação de Akaike - AIC O Critério de Informação de Akaike (Akaike, 1974) é uma medida da qualidade do ajuste de um modelo estatístico estimado. Ele é baseado no conceito de entropia e fornece uma medida relativa da informação perdida na adoção de um determinado modelo. De uma forma geral o AIC é dado por: AIC = 2k 2 log(l), onde K é o número de parâmetros no modelo e L é o valor máximo da função de verossimilhança para o modelo estimado. Algumas considerações devem ser feitas a respeito do AIC. Segundo (Basso, 2009), muitos autores, como por exemplo (Celeux e Soromenho, 1996), comentam que o AIC é inconsistente em ordem, e neste caso, tende a superestimar a dimensão do modelo, isso quer dizer no caso de misturas, que o AIC tende a selecionar modelos com um número de componentes maior que o verdadeiro. Apesar disso, esse critério tem sido muito utilizado na prática para determinar a ordem de uma mistura.

21 20 2 MODELOS PARA DADOS DE CONTAGEM 2.1 Introdução Em muitas áreas do conhecimento científico é frequente deparar-se com a investigação de características, feitas em unidades experimentais, que apresentem resultados de contagem. Por exemplo: o número de insetos que podem aparecer em uma determinada plantação (Entomologia); o número de sinistros associados a uma carteira de seguros (Atuária); etc. Dados deste tipo são denominados, em Estatística, como dados discretos, pois são expressos em termos de contagem associados a uma característica de interesse. Em geral, dados desta natureza são modelados, dentro da metodologia Estatística, usando-se a distribuição Poisson. A ocorrência de excessos de zeros em dados de contagem é um fato bastante comum nas variadas áreas do conhecimento, ocorrida devido a uma combinação de zeros estruturais e amostrais. Os zeros estruturais são independentes da distribuição em estudo, e os zeros amostrais estão relacionados a ocorrência de zeros devido o modelo probabilístico adotado, segundo Nagamine, Candolo e Moura (2008). Os modelos inflacionados de zeros surgem como alternativas ao modelo Poisson, misturando uma distribuição de probabilidade discreta com uma distribuição que leve em conta o excesso de zeros. Desta forma, o modelo Poisson inflacionado de zeros (ZIP) e o modelo Binomial Negativo inflacionado de zeros (ZINB) surgem como alternativas na modelagem de dados de contagem, com excesso de zeros, na tentativa de modelar a variabilidade presente. 2.2 O Modelo Poisson Padrão Suponha que, para dados Poisson, nos quais se tem y i observações da característica de interesse que acontecem a uma taxa média λ i de ocorrência de tempo (espaço, área, volume, etc), para i = {1,, n}, onde Y i Poisson(λ i ) de modo que a probabilidade de acontecer y i

22 2.3 O Modelo Poisson Inflacionado de Zeros (ZIP) 21 ocorrências da característica é: P(Y i = y i ) = e λ i y λi i, y i {0, 1, 2, } (2.1) y i! E(Y i ) = λ i = Var(Y i ). A regressão Poisson é uma forma de análise de regressão usada para modelar dados de contagem e tabelas de contingência. A regressão Poisson assume que a variável resposta Y tem uma distribuição Poisson, e assume o logaritmo do valor esperado ser modelado por uma combinação linear de parâmetros desconhecidos. O modelo de regressão Poisson é também conhecido como modelo log-linear, principalmente quando usado para modelar tabelas de contingência, na verdade, ele é um caso especial dos modelos log-lineares. No caso mais simples com uma única variável independente x, o modelo é da seguinte forma: log{e(y)} = a + bx. (2.2) Se Y i são observações independentes com valores x i correspondendo as variáveis preditoras, então a e b podem ser estimados por máxima verossimilhança se o número de valores x distintos é pelo menos dois. As estimativas de máxima verossimilhança não possuem uma expressão de forma fechada e devem ser encontradas por procedimentos numéricos. Os modelos de regressão Poisson são modelos lineares generalizados com o logaritmo como a função de ligação canônica, e a função de distribuição Poisson, já que na forma da família exponencial o modelo Poisson possui o parâmetro natural como sendo θ i = log(λ i ), definindo então a função de ligação canônica g(λ i ) = log(λ i ). 2.3 O Modelo Poisson Inflacionado de Zeros (ZIP) Quando nos deparamos com um número excessivo de zeros, a solução mais comum é a de estimarmos um modelo que misture a Poisson com uma distribuição que leve em conta o excesso de zeros. Desta forma, tem-se a hipótese que, com probabilidade p a variável resposta assume o valor zero e com probabilidade (1 p) assume o valor de uma variável aleatória com distribuição Poisson de média λ. Segundo Lambert (1992), o modelo Poisson Inflacionado de Zeros considera que alguns zeros, os zeros estruturais, ocorrem com probabilidade p i e os zeros amostrais, com

23 2.4 O Modelo Binomial Negativo Inflacionado de Zeros (ZINB) 22 probabilidade 1 p i e denotam o Modelo Poisson Inflacionado de Zeros como segue: p i + (1 p i )e λ, y i = 0 P(Y i = y i ) = (1 p i ) e λ y iλ i i y i, y! i > 0 (2.3) O parâmetro p i tem a restrição 0 < p i < 1. A esperança e a variância de Y i são, respectivamente, E(Y i ) = (1 p i )λ i e Var(Y i ) = µ i + [p i /(1 p i )]µ 2 i. Podemos observar que a variância da mistura é maior que a média da distribuição. Quanto maior a probabilidade do excesso de zeros, maior a variância da variável. À medida que p se aproxima de zero, a variância se aproxima de µ, ou seja, voltamos a lidar somente com uma distribuição Poisson padrão. A inclusão de covariáveis no modelo ZIP e a aplicação da teoria dos modelos lineares generalizados é feita com a definição das funções de ligação logarítmica e logística segundo Lambert (1992), isto é, ( ) log(λ i ) = X i β e log p i 1 p i = G i γ (2.4) onde X e G são as matrizes associadas às covariáveis, que podem ser, ou não, iguais, e β e γ são os vetores de parâmetros do modelo tal que p i = (p 1,, p n ) t e λ i = (λ 1,, λ n ) t. 2.4 O Modelo Binomial Negativo Inflacionado de Zeros (ZINB) Suponha um experimento aleatório, onde apenas dois resultados são possíveis: sucesso ou fracasso. Considere ainda que a probabilidade de sucesso é p e que a probabilidade de fracasso é q = 1 p. Se consideramos que o experimento ocorre indefinidamente e que os ensaios são independentes, então a variável aleatória correspondendo ao número de repetições (ensaios) até que o k-ésimo sucesso ocorra segue uma distribuição Binomial Negativa de parâmetros BN(p,k). Muitas parametrizações são utilizadas para escrever a distribuição Binomial Negativa, porém, utilizaremos a notação de Nelder e Wedderburn (1972), onde p = k, 0 < p < 1 e k+µ k 1 é o parâmetro de dispersão, k > 0. Desta forma, a distribuição de probabilidade da Binomial Negativa de parâmetros BN(p,k) é dada por: ( ) ( ) k ( ) y y + k 1 k µ P(Y = y) =, y = 0, 1, 2, (2.5) y k + µ k + µ

24 2.4 O Modelo Binomial Negativo Inflacionado de Zeros (ZINB) 23 Considerando uma distribuição de probabilidade binomial negativa Y, como a citada em (2.5), segue que a média é dada por E(Y) = µ e a variância é dada por Var(Y) = µ + µ2 k, segundo Paula (2004). É interessante observar que a variância da binomial negativa apresenta um termo adicional µ2, comparativamente com a variância da distribuição Poisson, sendo bastante útil no ajuste de conjunto de dados com superdispersão. A distribuição Binomial k Negativa aproxima-se da distribuição Poisson quando k 1 0 (Cameron e Trivedi (1998)). O modelo Binomial Negativo Inflacionado de Zeros (ZINB) surge como alternativa para dados de contagem com excesso de zeros, já que a superdispersão devida a esse excesso pode causar sérios problemas como a subestimação dos erros padrão dos estimadores e o consequente aumento do p-valor associado aos parâmetros do modelo, produzindo inferências pouco confiáveis. A distribuição ZINB surge como uma mistura da distribuição Binomial Negativa e uma distribuição que leve em conta o excesso de zeros, sendo portanto, degenerada nesse ponto. A notação usada por Yau et al. (2003), mostra que o modelo Binomial Negativo Inflacionado de Zeros pode ser escrito como segue: p i + (1 p i ) ( ) k k k+µ i, yi = 0 P(Y i = y i ) = (1 p i ) ( y i +k 1) ( ) k ( k µi ) yi y i k+µ i k+µ i, y i > 0 (2.6) sendo que µ i é a média da distribuição Binomial Negativa com parâmetros (p i, k). Novamente, para o parâmetro p i existe a restrição de que 0 < p i < 1 e (1 p i ) representa a probabilidade de zeros amostrais. A esperança e a variância de Y i são dadas respectivamente por, E(Y i ) = (1 p i )µ i e Var(Y i ) = (1 p i )(1+µ i /k+p i µ i )µ i. Segundo Montoya (2009), a distribuição ZINB aproxima-se da ZIP quando k 0 e aproxima-se da binomial negativa quando p i 0. Se ambas 1 k e p i convergem para zero, então a distribuição ZINB é reduzida à distribuição Poisson padrão. Assim como no modelo ZIP, as funções de ligação são a logarítmica e a logística, isto é, log(µ i ) = X i β e log ( p i 1 p i ) = G i γ (2.7) onde p i e µ i denotam os vetores de parâmetros modelados pelas funções acima, sendo dados por p i = (p 1,, p n ) t e µ i = (µ 1,, µ n ) t.

25 24 3 PRINCIPAIS TIPOS DE RESÍDUOS UTILIZADOS EM MLG S 3.1 Introdução Quando um modelo é ajustado a um conjunto de dados, uma etapa que merece bastante atenção é a verificação de possíveis afastamentos das suposições feitas para o modelo, levando-se em consideração a parte aleatória e sistemática do modelo, assim como verificar a presença de observações com alguma influência desproporcional nos resultados do ajuste. A análise de diagnóstico, esta etapa importante da análise de regressão, começou com a análise de resíduos para detectar possíveis pontos extremos e avaliar a adequação da distribuição proposta para a variável resposta. Assim como no modelo clássico de regressão, as técnicas usadas para análise de resíduos e diagnóstico para os modelos lineares generalizados são semelhantes, com uma ou outra adaptação, devido a estrutura dos MLG s. Os resíduos são importantes dentro da análise de diagnóstico, uma vez que eles ajudam a detectar observações discrepantes que merecem uma análise mais detalhada. Segundo Cox e Snell (1968), os resíduos devem expressar uma discrepância entre a observação y i e o seu valor ajustado ˆµ i, sendo dado por: R i = h i (y i, ˆµ i ) (3.1) onde h i é conhecida e de fácil interpretação. A matriz de projeção H, nos modelos lineares generalizados é definida por: H = W 1/2 X(X T WX) 1 X T W 1/2 (3.2) Observe que H depende das variáveis explicativas, da função de ligação e da função de variância, tornando mais difícil a interpretação da medida de leverage. Esta matriz desempenha um papel importante na análise dos resíduos nos MLG s e apresenta as seguintes propriedades tr(h) = p e 0 h ii 1.

26 3.2 Resíduos de Pearson Resíduos de Pearson Dentre os tipos de resíduos mais comuns nos MLG s, encontra-se o resíduo de Pearson, que é também o mais simples, sendo definido por: r i P = y i ˆµ i ˆV 1/2 i (3.3) onde ˆµ i e ˆV i são respectivamente a média ajustada e a função de variância ajustada de Y i. Este resultado surge como uma componente da estatística de Pearson generalizada X p 2 = n i=1 r i P 2, segundo Cordeiro e Demétrio (2007). Para os modelos log-lineares a expressão (3.3) passa a ser dada por: r P i = (y i ˆµ i ) ˆµ 1/2. A desvantagem do resíduo de Pearson é que sua i distribuição é bastante assimétrica para modelos não-normais. 3.3 Resíduos de Pearson estudentizados r i P = y i ˆµ i V( ˆµi )(1 h ii ), (3.4) onde h ii é o i-ésimo elemento da diagonal da matriz de projeção ortogonal dada em (3.2). Os resíduos de Pearson estudentizados têm, aproximadamente, variância igual a um quando o parâmetro de dispersão φ 0 dado em (1.3). 3.4 Resíduos Componentes do Desvio Um outro tipo de resíduo muito utilizado dentro da metodologia dos MLG s, é o resíduo componente do desvio, definido como a raiz quadrada da diferença entre as logverossimilhanças sob o modelo saturado e o modelo corrente para cada uma das observações, com sinal dado pelo sinal de y i ˆµ i, ou seja, r D i = sinal(y i ˆµ i ) 2(ˆl sat ˆl cor ), (3.5) onde ˆl sat e ˆl cor são as log-verossimilhanças sob o modelo saturado e corrente, respectivamente, para cada observação i. Como podemos observar, o resíduo r i D representa uma distância da observação y i ao seu valor ajustado ˆµ i, medida na escala do logaritmo da função de verossimilhança. Cordeiro e

27 3.5 Resíduos Componentes do Desvio Estudentizados 26 Demétrio (2007) citam como vantagens do resíduo (3.5) o fato de não requerer o conhecimento da função normalizadora; a computação simples após o ajuste do MLG e o fato de ser definido para toda observação e, mesmo para observações censuradas, desde que estas forneçam uma contribuição para o logaritmo da função de verossimilhança. 3.5 Resíduos Componentes do Desvio Estudentizados como segue abaixo: Os resíduos componentes do desvio estudentizados são definidos a partir de (3.5), r i D = r i D 1 hii, (3.6) onde h ii é o i-ésimo elemento da diagonal da matriz de projeção ortogonal dada em (3.2). Os resíduos aqui apresentados são os mais utilizados nas aplicações dos MLG s, juntamente com os resíduos de Anscombe, no entanto, no contexto do presente trabalho, os resíduos de Pearson e Componentes do Desvio assim como os referidos resíduos estudentizados para ambos, mostram-se bastante úteis nas aplicações de dados de contagem com excesso de zeros, foco do trabalho e portanto utilizados aqui. Diversas técnicas analíticas e gráficas podem ser utilizadas para detectar desvios do modelo sob pesquisa, uma vez que estamos de posse dos resíduos e que possivelmente definimos uma distribuição teórica adequada para eles. 3.6 Tipos de Gráficos Basicamente utilizamos três tipos de gráficos para análise dos resíduos, a saber: Gráfico de índices Gráfico utilizado para localizar observações com resíduo, leverage (h ii ), distância de Cook modificada etc, grandes. Pode ser útil na detecção de observações que destoam da tendência geral das demais observações, indicando um possível outlier Resíduos versus valores ajustados Muito utilizado para verificar a constância de variância (McCullagh e Nelder, 1989) para a distribuição em uso, e em geral se utiliza algum tipo de resíduo estudentizado. O que

28 3.6 Tipos de Gráficos 27 se espera é que o gráfico apresente a distribuição dos resíduos em torno de zero com amplitude constante, onde desvios sistemáticos podem ter algum tipo de curvatura ou uma amplitude muito diferente com o valor ajustado Gráfico semi-normal de probabilidades ( half normal plots ) A construção do gráfico semi-normal de probabilidades é o resultado do conjunto de pontos obtidos por valores absolutos de um quantil amostral versus os valores do quantil correspondente da distribuição normal (z i ) em que z i = Φ 1 (i + n 0, 125)/(2n + 0, 5) Gráfico normal de probabilidades ( normal plots ) com envelopes Weisberg (2005) analisa que o gráfico normal de probabilidades destaca-se por dois aspectos: a identificação da distribuição originária dos dados e a identificação de valores que se destacam no conjunto de observações. Os envelopes, no caso dos MLG s com distribuições diferentes da normal, são construídos com os resíduos sendo gerados a partir do modelo ajustado (Williams, 1987).

29 28 4 APLICAÇÃO 4.1 Introdução Os dados considerados nesta seção foram retirados da dissertação de Rômulo Augusto Guedes Rizzardo de 2007 através de um estudo realizado na área de apicultura com o intuito de verificar o número de abelhas que polinizam determinada espécie de planta no decorrer do tempo. Para isso, foram realizadas quatro coletas em um intervalo de tempo variável segundo a hora do dia. Os horários de coletas considerados foram: 4, 5, 6, 8, 10, 12, 14, 16 e 18 horas, perfazendo um total de 36 observações. Os dados foram ajustados utilizando os Modelos Lineares Generalizados para dados de contagem com distribuição Poisson, Binomial Negativo inflacionado de zeros (ZINB) e Poisson inflacionado de zeros (ZIP), sendo considerada como variável resposta o número de abelhas coletando polens. 4.2 Modelo Poisson Inicialmente propomos um modelo Poisson em que o número de abelhas coletando polens na i-ésima hora e j-ésima repetição é Y ij Poisson(λ i ), em que log(λ i ) = α + βhora i (4.1) para i = 1, 2,, 9. Ajustando um modelo linear generalizado com apoio computacional do R, o ajuste do modelo forneceu uma Deviance de com 34 graus de liberdade, indicando fortes indícios de superdispersão ocasionado possivelmente pelo excesso de zeros. A sintaxe usada para obter os resultados acima no programa R é dada abaixo: require(mass) mlg.poisson=glm(abelhas1~hora1,family=poisson()) summary(mlg.poisson)

30 4.2 Modelo Poisson 29 Os resíduos nas figuras (2) e (3) podem ser obtidos diretamente da função glm() no programa R, cuja sintaxe é dada abaixo: res_pearson=resid(mlg.poisson,type="pearson")*sqrt(fi*(1-h)) res_cd=resid(mlg.poisson,type="deviance")*sqrt(fi*(1-h)) onde f i é o parâmetro de dispersão do modelo ajustado e h são os elementos da diagonal da matriz dada em (3.2). A Tabela (3) apresenta as estimativas dos parâmetros do modelo Poisson e as respectivas significâncias. Tabela 3: Estimativas dos parâmetros do modelo Poisson e nível descritivo Parâmetros Estimativa Erro Padrão Valor z P(> z ) α 3, 14 0, 11 28, 04 < β 0, 08 0, 01 6, 73 1, Observado Ajustado Número de Abelhas Horas Figura 1: Valores observados e modelo ajustado Poisson

31 4.3 Modelo Poisson Inflacionado de Zeros (ZIP) 30 Resíduo de Pearson Padronizado Resíduo Componente do Desvio Quantil da Normal Padrão Quantil da Normal Padrão Figura 2: Envelope simulado para os resíduos de Pearson no modelo Poisson Figura 3: Envelope simulado para os Componentes do Desvio no modelo Poisson Através da Figura (1) acima, verificamos que o ajuste não é muito bom. Ao analisarmos a Tabela (3) constamos que os parâmetros do modelo ajustado são altamente significativos, no entanto, quando observamos a Deviance nula de 567, 14 com 35 graus de liberdade, correspondendo ao modelo com apenas um parâmetro, ou seja, α, já podemos suspeitar da diferença muito grande. O valor da Deviance residual foi de com 34 graus de liberdade, evidenciando um ajuste não muito adequado, apesar da redução de 48, 41 com relação ao modelo nulo. Esse fato é ocasionado possivelmente pela presença de superdispersão, devido ao excesso de zeros, o que podemos constatar nas Figuras (2) e (3) através do envelopes simulado Poisson. Podemos constatar também, uma outra medida da qualidade do ajuste, o AIC, que mede o grau de informação que se perde ao adotar determinado modelo, desta forma, quanto menor o AIC, melhor o ajuste. Para o modelo ZIP em questão, o Critério de Informação de Akaike (AIC) foi de 629, 42. De posse dessas informações, modelos alternativos devem ser considerados afim de melhor acomodar a extra variabilidade presente nos dados. 4.3 Modelo Poisson Inflacionado de Zeros (ZIP) Na tentativa de controlar esse efeito de excesso de zeros, um modelo Poisson Inflacionado de Zeros foi ajustado também com o auxilio computacional do R onde o ajuste do modelo forneceu uma log-verossimilhança de em 68 graus de liberdade, indicando um

32 4.3 Modelo Poisson Inflacionado de Zeros (ZIP) 31 ajuste mais adequado, onde temos um modelo ZIP em que o número de abelhas coletando polens na i-ésima hora e j-ésima repetição é dado por: ( ) log p i 1 p i = α 1 + β 1 hora i (4.2) onde (4.2) corresponde a função de ligação que modela a proporção de zeros. log(λ i ) = α 2 + β 2 hora i (4.3) onde (4.3) corresponde a função de ligação que modela as observações provenientes da Poisson. Uma função interessante no programa R que ajusta o modelo ZIP e a sintaxe utilizada para obter os resultados da modelagem é descrita a seguir: require(vgam) ajuste_zip = vglm(abelhas1 ~ hora1, zipoisson, trace=true) summary(ajuste_zip) AIC(ajuste_zip) Tabela 4: Estimativas dos parâmetros do modelo ZIP e nível descritivo Parâmetros Estimativa Erro Padrão Valor t P(> t ) α 1 164, , 60 0, 04 0, 48 α 2 5, 13 0, 15 34, 40 < β 1 29, 95 76, 60 0, 04 0, 48 β 2 0, 24 0, 02 15, 03 < Podemos constatar pela Figura (4) que o modelo ZIP ajustou-se bem aos dados, quando comparado com o ajuste Poisson padrão. Verificamos através da Tabela (4) que os parâmetros relacionados a modelagem da proporção de zeros não são significativos a 5%, enquanto os parâmetros relacionados as observações provenientes da Poisson são altamente significativos. As estimativas dos parâmetros do modelo relacionada a Poisson quando comparadas com o modelo Poisson padrão são ligeiramente diferentes, e uma observação interessante está no erro padrão dos estimadores desses parâmetros, verificamos que no modelo ZIP o erro padrão é ligeiramente superior ao erro padrão do modelo Poisson padrão, ratificando a superdispersão e a consequente subestimação dos erros padrão. O ajuste do modelo ZIP forneceu uma log-verossimilhança de em 68 graus de liberdade, o que nos dá um AIC de 191, 07, confirmando matematicamente que o modelo ZIP melhor se ajusta aos dados do o modelo Poisson padrão, que forneceu um AIC de 629, 42.

33 4.3 Modelo Poisson Inflacionado de Zeros (ZIP) 32 Número de Abelhas Observado Ajustado Horas Figura 4: Valores observados e modelo ajustado ZIP Resíduos de Pearson Resíduos de Pearson Percentis da N(0,1) Quantis Semi Normais Figura 5: Envelope simulado dos resíduos de Pearson para o modelo ZIP Figura 6: Envelope seminormal de probabilidades para os resíduos de Pearson no modelo ZIP

34 4.4 Modelo Binomial Negativo Inflacionado de Zeros (ZINB) 33 Resíduos Componentes do Desvio Resíduos Componentes do Desvio Percentis da N(0,1) Quantis Semi Normais Figura 7: Envelope simulado dos resíduos Componentes do Desvio para o modelo ZIP Figura 8: Envelope seminormal de probabilidades para os resíduos Componentes do Desvio no modelo ZIP 4.4 Modelo Binomial Negativo Inflacionado de Zeros (ZINB) Como uma forma de comparar os resultados obtidos, ajustou-se um modelo Binomial Negativo Inflacionado de Zeros na tentativa de melhor acomodar o excesso de zeros, onde foi obtido com auxilio computacional do R uma log-verossimilhança de em 102 graus de liberdade, indicando um ajuste melhor que os outros dois modelos ajustados. O modelo ZINB em que o número de abelhas coletando polens na i-ésima hora e j-ésima repetição é dado por: ( log p i 1 p i ) = α 1 + β 1 hora i (4.4) onde (4.4) corresponde a função de ligação que modela a proporção de zeros. log(µ i ) = α 2 + β 2 hora i (4.5) onde (4.5) corresponde a função de ligação que modela as observações provenientes da Binomial Negativa. log(k i ) = α 3 + β 3 hora i (4.6) onde k é o parâmetro da distribuição Binomial Negativa associado a dispersão da distribuição. Assim como para o modelo ZIP existe uma função desenvolvida no programa R, também existe uma função para o modelo ZINB, no entanto, alguns aspectos da função carece de ajuste, como podemos constatar pelas variações sofrida pelas estimativas dos parâmetros

35 4.4 Modelo Binomial Negativo Inflacionado de Zeros (ZINB) 34 relacionada a modelagem da proporção de zeros. Apesar disso, a função mostrou-se bastante útil e ajustou-se bem aos dados, a seguir descrevemos a sintaxe utilizada para obter os resultados do ajuste: require(vgam) ajuste_zinb = vglm(abelhas1 ~ hora1, zinegbinomial(zero=null), trace=true) summary(ajuste_zinb) AIC(ajuste_zinb) Tabela 5: Estimativas dos parâmetros do modelo ZINB e nível descritivo Parâmetros Estimativa Erro Padrão Valor t P(> t ) α 2 5, 17 0, 22 23, 40 < α 3 7, 00 2, 00 3, β 2 0, 25 0, 03 9, 40 8, β 3 0, 43 0, 14 3, 08 1, Número de Abelhas Observado Ajustado Horas Figura 9: Valores observados e modelo ajustado ZINB

36 4.4 Modelo Binomial Negativo Inflacionado de Zeros (ZINB) 35 A Figura (9) mostra que o modelo ZINB ajusta-se bem aos dados, percebemos que o ajuste é muito semelhante ao mostrado na Figura (4). A Tabela (5) confirma isso, verificamos que as estimativas dos parâmetros do modelo são bem próximas e mostrando-se altamente significativas para o modelo ajustado, no entanto, quando partimos para a análise de resíduos e as medidas que quantificam a qualidade do ajuste, percebemos a diferença. Uma outra observação interessante está no erro padrão dos estimadores dos parâmetros, como já foi constatado anteriormente, mais uma vez foi verificado o aumento do erro padrão para os estimadores relacionados as observações que provém da distribuição Binomial Negativa, mostrando que o modelo ZINB contempla de forma satisfatória, melhor que o modelo ZIP, a superdispersão presente devido ao excesso de zeros. Como já foi mencionado anteriormente, o modelo ZINB forneceu uma log-verossimilhança de 79, 24 com 102 graus de liberdade, o que nos dá um AIC de 170, 49. Comparativamente ao modelo ZIP, o modelo ZINB perde menos informação, já que o primeiro apresenta um AIC de 191, 07 e comparativamente ao modelo Poisson padrão apresenta uma diferença bastante significativa, mostrando ser o modelo mais adequado nesse caso. Resíduos de Pearson Resíduos de Pearson Percentis da N(0,1) Quantis Semi Normais Figura 10: Envelope simulado dos resíduos de Pearson para o modelo ZINB Figura 11: Envelope seminormal de probabilidades para os resíduos de Pearson no modelo ZINB Através dos envelopes simulados podemos observar o comportamento dos resíduos de Pearson e Componentes do Desvio para o modelo ZINB. Constatamos através das Figuras (10) e (11) que os resíduos de Pearson estão todos praticamente sobre uma linha, evidenciando a suposição de distribuição adequada para o modelo em estudo, assim como os resíduos Componentes do Desvio, mostrando a maioria dos pontos dentro das bandas de confiança de 95%,

Exercícios Teóricos Resolvidos

Exercícios Teóricos Resolvidos Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar

Leia mais

Aula 4 Estatística Conceitos básicos

Aula 4 Estatística Conceitos básicos Aula 4 Estatística Conceitos básicos Plano de Aula Amostra e universo Média Variância / desvio-padrão / erro-padrão Intervalo de confiança Teste de hipótese Amostra e Universo A estatística nos ajuda a

Leia mais

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa

Leia mais

Faculdade Sagrada Família

Faculdade Sagrada Família AULA 12 - AJUSTAMENTO DE CURVAS E O MÉTODO DOS MÍNIMOS QUADRADOS Ajustamento de Curvas Sempre que desejamos estudar determinada variável em função de outra, fazemos uma análise de regressão. Podemos dizer

Leia mais

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente. TESTES NÃO - PARAMÉTRICOS As técnicas da Estatística Não-Paramétrica são, particularmente, adaptáveis aos dados das ciências do comportamento. A aplicação dessas técnicas não exige suposições quanto à

Leia mais

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ Probabilidade Vimos anteriormente como caracterizar uma massa de dados, como o objetivo de organizar e resumir informações. Agora, apresentamos a teoria matemática que dá base teórica para o desenvolvimento

Leia mais

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística Samuel de Oliveira INFERÊNCIA E ANÁLISE DE RESÍDUOS E DE DIAGNÓSTICO EM

Leia mais

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação Regressão Logística Daniel Araújo Melo - dam2@cin.ufpe.br Graduação 1 Introdução Objetivo Encontrar o melhor modelo para descrever a relação entre variável de saída (variável dependente) e variáveis independentes

Leia mais

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIS Como vimos no módulo 1, para que nós possamos extrair dos dados estatísticos de que dispomos a correta análise e interpretação, o primeiro passo deverá ser a correta

Leia mais

Resolução de sistemas lineares

Resolução de sistemas lineares Resolução de sistemas lineares J M Martínez A Friedlander 1 Alguns exemplos Comecemos mostrando alguns exemplos de sistemas lineares: 3x + 2y = 5 x 2y = 1 (1) 045x 1 2x 2 + 6x 3 x 4 = 10 x 2 x 5 = 0 (2)

Leia mais

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão. ESTATÍSTICA INDUTIVA 1. CORRELAÇÃO LINEAR 1.1 Diagrama de dispersão O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Leia mais

MÓDULO 1. I - Estatística Básica

MÓDULO 1. I - Estatística Básica MÓDULO 1 I - 1 - Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos e empíricamente observáveis. Unidade Estatística nome dado a cada observação de um

Leia mais

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA Everton Batista da Rocha 1 2 3 Roseli Aparecida Leandro 2 Paulo Justiniano Ribeiro Jr 4 1 Introdução Na experimentação agronômica

Leia mais

Análise de Arredondamento em Ponto Flutuante

Análise de Arredondamento em Ponto Flutuante Capítulo 2 Análise de Arredondamento em Ponto Flutuante 2.1 Introdução Neste capítulo, chamamos atenção para o fato de que o conjunto dos números representáveis em qualquer máquina é finito, e portanto

Leia mais

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Estatística II Antonio Roque Aula 9. Testes de Hipóteses Testes de Hipóteses Os problemas de inferência estatística tratados nas aulas anteriores podem ser enfocados de um ponto de vista um pouco diferente: ao invés de se construir intervalos de confiança para

Leia mais

Processos Estocásticos

Processos Estocásticos Processos Estocásticos Terceira Lista de Exercícios 22 de julho de 20 Seja X uma VA contínua com função densidade de probabilidade f dada por Calcule P ( < X < 2. f(x = 2 e x x R. A fdp dada tem o seguinte

Leia mais

Análise de Regressão Linear Simples e Múltipla

Análise de Regressão Linear Simples e Múltipla Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques (DepMAT ESTV) Análise de Regres. Linear Simples e Múltipla

Leia mais

CAP5: Amostragem e Distribuição Amostral

CAP5: Amostragem e Distribuição Amostral CAP5: Amostragem e Distribuição Amostral O que é uma amostra? É um subconjunto de um universo (população). Ex: Amostra de sangue; amostra de pessoas, amostra de objetos, etc O que se espera de uma amostra?

Leia mais

Gerenciamento de Projetos Modulo II Clico de Vida e Organização

Gerenciamento de Projetos Modulo II Clico de Vida e Organização Gerenciamento de Projetos Modulo II Clico de Vida e Organização Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com Bibliografia* Project Management Institute. Conjunto de Conhecimentos

Leia mais

Eventos independentes

Eventos independentes Eventos independentes Adaptado do artigo de Flávio Wagner Rodrigues Neste artigo são discutidos alguns aspectos ligados à noção de independência de dois eventos na Teoria das Probabilidades. Os objetivos

Leia mais

Datas Importantes 2013/01

Datas Importantes 2013/01 INSTRUMENTAÇÃO CARACTERÍSTICAS DE UM SISTEMA DE MEDIÇÃO PROBABILIDADE PROPAGAÇÃO DE INCERTEZA MÍNIMOS QUADRADOS Instrumentação - Profs. Isaac Silva - Filipi Vianna - Felipe Dalla Vecchia 2013 Datas Importantes

Leia mais

1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito.

1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito. 1 I-projeto do campus Programa Sobre Mecânica dos Fluidos Módulos Sobre Ondas em Fluidos T. R. Akylas & C. C. Mei CAPÍTULO SEIS ONDAS DISPERSIVAS FORÇADAS AO LONGO DE UM CANAL ESTREITO As ondas de gravidade

Leia mais

Potenciação no Conjunto dos Números Inteiros - Z

Potenciação no Conjunto dos Números Inteiros - Z Rua Oto de Alencar nº 5-9, Maracanã/RJ - tel. 04-98/4-98 Potenciação no Conjunto dos Números Inteiros - Z Podemos epressar o produto de quatro fatores iguais a.... por meio de uma potência de base e epoente

Leia mais

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento. 4 Plano de Análise O desenho do experimento realizado foi elaborado de forma a identificar o quão relevantes para a explicação do fenômeno de overbidding são os fatores mencionados na literatura em questão

Leia mais

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

ESPAÇOS MUNIDOS DE PRODUTO INTERNO ESPAÇOS MUNIDOS DE PRODUTO INTERNO Angelo Fernando Fiori 1 Bruna Larissa Cecco 2 Grazielli Vassoler 3 Resumo: O presente trabalho apresenta um estudo sobre os espaços vetoriais munidos de produto interno.

Leia mais

Lista 1 para a P2. Operações com subespaços

Lista 1 para a P2. Operações com subespaços Lista 1 para a P2 Observação 1: Estes exercícios são um complemento àqueles apresentados no livro. Eles foram elaborados com o objetivo de oferecer aos alunos exercícios de cunho mais teórico. Nós sugerimos

Leia mais

TÉCNICAS DE PROGRAMAÇÃO

TÉCNICAS DE PROGRAMAÇÃO TÉCNICAS DE PROGRAMAÇÃO (Adaptado do texto do prof. Adair Santa Catarina) ALGORITMOS COM QUALIDADE MÁXIMAS DE PROGRAMAÇÃO 1) Algoritmos devem ser feitos para serem lidos por seres humanos: Tenha em mente

Leia mais

Capítulo 3 Modelos Estatísticos

Capítulo 3 Modelos Estatísticos Capítulo 3 Modelos Estatísticos Slide 1 Resenha Variáveis Aleatórias Distribuição Binomial Distribuição de Poisson Distribuição Normal Distribuição t de Student Distribuição Qui-quadrado Resenha Slide

Leia mais

5 A Metodologia de Estudo de Eventos

5 A Metodologia de Estudo de Eventos 57 5 A Metodologia de Estudo de Eventos 5.1. Principais Conceitos Introduzido em 1969 pelo estudo de Fama, Fisher, Jensen e Roll, o estudo de evento consiste na análise quanto à existência ou não de uma

Leia mais

O teste de McNemar. A tabela 2x2. Depois

O teste de McNemar. A tabela 2x2. Depois Prof. Lorí Viali, Dr. http://www.pucrs.br/famat/viali/ viali@pucrs.br O teste de McNemar O teste de McNemar para a significância de mudanças é particularmente aplicável aos experimentos do tipo "antes

Leia mais

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar 3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar Vimos que as previsões sobre as capacidades caloríficas molares baseadas na teoria cinética estão de acordo com o comportamento

Leia mais

Exemplos de Testes de Hipóteses para Médias Populacionais

Exemplos de Testes de Hipóteses para Médias Populacionais Exemplos de Testes de Hipóteses para Médias Populacionais Vamos considerar exemplos de testes de hipóteses para a média de uma população para os dois casos mais importantes na prática: O tamanho da amostra

Leia mais

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica O Princípio da Complementaridade e o papel do observador na Mecânica Quântica A U L A 3 Metas da aula Descrever a experiência de interferência por uma fenda dupla com elétrons, na qual a trajetória destes

Leia mais

Testes (Não) Paramétricos

Testes (Não) Paramétricos Armando B. Mendes, DM, UAç 09--006 ANOVA: Objectivos Verificar as condições de aplicabilidade de testes de comparação de médias; Utilizar ANOVA a um factor, a dois factores e mais de dois factores e interpretar

Leia mais

1 Um guia para este livro

1 Um guia para este livro PARTE 1 A estrutura A Parte I constitui-se de uma estrutura para o procedimento da pesquisa qualitativa e para a compreensão dos capítulos posteriores. O Capítulo 1 serve como um guia para o livro, apresentando

Leia mais

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder Variáveis aleatórias contínuas e distribuiçao Normal Henrique Dantas Neder Definições gerais Até o momento discutimos o caso das variáveis aleatórias discretas. Agora vamos tratar das variáveis aleatórias

Leia mais

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009 REGRESSÃO MÚLTIPLA APLICADA AOS DADOS DE VENDAS DE UMA REDE DE LOJAS DE ELETRODOMÉSTICOS VANESSA SIQUEIRA PERES 1 RESUMO: Esse trabalho foi realizado com o objetivo de ajustar os dados de vendas de uma

Leia mais

5 Considerações finais

5 Considerações finais 5 Considerações finais 5.1. Conclusões A presente dissertação teve o objetivo principal de investigar a visão dos alunos que se formam em Administração sobre RSC e o seu ensino. Para alcançar esse objetivo,

Leia mais

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

INSTITUTO TECNOLÓGICO

INSTITUTO TECNOLÓGICO PAC - PROGRAMA DE APRIMORAMENTO DE CONTEÚDOS. ATIVIDADES DE NIVELAMENTO BÁSICO. DISCIPLINAS: MATEMÁTICA & ESTATÍSTICA. PROFº.: PROF. DR. AUSTER RUZANTE 1ª SEMANA DE ATIVIDADES DOS CURSOS DE TECNOLOGIA

Leia mais

4. RESULTADOS E DISCUSSÃO

4. RESULTADOS E DISCUSSÃO 4. RESULTADOS E DISCUSSÃO 4.1. Energia cinética das precipitações Na Figura 9 estão apresentadas as curvas de caracterização da energia cinética aplicada pelo simulador de chuvas e calculada para a chuva

Leia mais

Disponibilizo a íntegra das 8 questões elaboradas para o Simulado, no qual foram aproveitadas 4 questões, com as respectivas resoluções comentadas.

Disponibilizo a íntegra das 8 questões elaboradas para o Simulado, no qual foram aproveitadas 4 questões, com as respectivas resoluções comentadas. Disponibilizo a íntegra das 8 questões elaboradas para o Simulado, no qual foram aproveitadas questões, com as respectivas resoluções comentadas. Amigos, para responder às questões deste Simulado, vamos

Leia mais

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais 1 AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais Ernesto F. L. Amaral 20 e 22 de abril e 04 de maio de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte:

Leia mais

Unidade 3 Função Logarítmica. Definição de logaritmos de um número Propriedades operatórias Mudança de base Logaritmos decimais Função Logarítmica

Unidade 3 Função Logarítmica. Definição de logaritmos de um número Propriedades operatórias Mudança de base Logaritmos decimais Função Logarítmica Unidade 3 Função Logarítmica Definição de aritmos de um número Propriedades operatórias Mudança de base Logaritmos decimais Função Logarítmica Definição de Logaritmo de um número Suponha que certo medicamento,

Leia mais

5 Um simulador estocástico para o fluxo de caixa

5 Um simulador estocástico para o fluxo de caixa 5 Um simulador estocástico para o fluxo de caixa O objetivo desse capítulo é o de apresentar um simulador estocástico para o fluxo de caixa de um plano de previdência do tipo PGBL de um único indivíduo.

Leia mais

ESTRUTURA DE GERENCIAMENTO DO RISCO OPERACIONAL DO BANCO COOPERATIVO SICREDI E EMPRESAS CONTROLADAS

ESTRUTURA DE GERENCIAMENTO DO RISCO OPERACIONAL DO BANCO COOPERATIVO SICREDI E EMPRESAS CONTROLADAS ESTRUTURA DE GERENCIAMENTO DO RISCO OPERACIONAL DO BANCO COOPERATIVO SICREDI E EMPRESAS CONTROLADAS Versão : 31 de dezembro de 2008 CONTEÚDO 1. INTRODUÇÃO...3 2. ORGANIZAÇÃO DA GESTÃO DE RISCO OPERACIONAL...3

Leia mais

DURATION - AVALIANDO O RISCO DE MUDANÇA NAS TAXAS DE JUROS PARTE ll

DURATION - AVALIANDO O RISCO DE MUDANÇA NAS TAXAS DE JUROS PARTE ll DURATION - AVALIANDO O RISCO DE MUDANÇA NAS TAXAS DE JUROS PARTE ll! Qual a origem do conceito de duração?! Como calcular a duração?! Quais as limitações do cálculo da duração?! Como estimar a variação

Leia mais

5 Considerações Finais e Recomendações

5 Considerações Finais e Recomendações Considerações Finais e Recomendações 132 5 Considerações Finais e Recomendações O controle estatístico de processos compõe-se essencialmente do monitoramento on line dos processos por gráficos de controle

Leia mais

3 Metodologia 3.1. Tipo de pesquisa

3 Metodologia 3.1. Tipo de pesquisa 3 Metodologia 3.1. Tipo de pesquisa Escolher o tipo de pesquisa a ser utilizado é um passo fundamental para se chegar a conclusões claras e responder os objetivos do trabalho. Como existem vários tipos

Leia mais

Universidade Federal de São João Del Rei - UFSJ

Universidade Federal de São João Del Rei - UFSJ Universidade Federal de São João Del Rei - UFSJ Instituída pela Lei 0.45, de 9/04/00 - D.O.U. de /04/00 Pró-Reitoria de Ensino de Graduação - PROEN Disciplina: Cálculo Numérico Ano: 03 Prof: Natã Goulart

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS

MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS Definições Variáveis Aleatórias Uma variável aleatória representa um valor numérico possível de um evento incerto. Variáveis aleatórias

Leia mais

PESQUISA EM INFORMÁTICA -ESTILOS DE PESQUISA EM COMPUTAÇÃO. Prof. Angelo Augusto Frozza, M.Sc.

PESQUISA EM INFORMÁTICA -ESTILOS DE PESQUISA EM COMPUTAÇÃO. Prof. Angelo Augusto Frozza, M.Sc. PESQUISA EM INFORMÁTICA -ESTILOS DE PESQUISA EM COMPUTAÇÃO Prof. Angelo Augusto Frozza, M.Sc. O TRABALHO DE CONCLUSÃO Introdução O texto que segue resume os Capítulo 2 e 8, do livro Metodologia de Pesquisa

Leia mais

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente Nome: Ano: º Ano do E.M. Escola: Data: / / 3º Ano do Ensino Médio Aula nº10 Prof. Daniel Szente Assunto: Função exponencial e logarítmica 1. Potenciação e suas propriedades Definição: Potenciação é a operação

Leia mais

Diretrizes para determinação de intervalos de comprovação para equipamentos de medição.

Diretrizes para determinação de intervalos de comprovação para equipamentos de medição. Diretrizes para determinação de intervalos de comprovação para equipamentos de medição. De acordo com a Norma NBR 1001, um grande número de fatores influência a freqüência de calibração. Os mais importantes,

Leia mais

A metodologia ARIMA (Auto-regressivo-Integrado-Média-Móvel),

A metodologia ARIMA (Auto-regressivo-Integrado-Média-Móvel), nfelizmente, o uso de ferramentas tornais de previsão é muito pouco adotado por empresas no Brasil. A opinião geral é que no Brasil é impossível fazer previsão. O ambiente econômico é muito instável, a

Leia mais

Indicamos inicialmente os números de cada item do questionário e, em seguida, apresentamos os dados com os comentários dos alunos.

Indicamos inicialmente os números de cada item do questionário e, em seguida, apresentamos os dados com os comentários dos alunos. Os dados e resultados abaixo se referem ao preenchimento do questionário Das Práticas de Ensino na percepção de estudantes de Licenciaturas da UFSJ por dez estudantes do curso de Licenciatura Plena em

Leia mais

3 Matemática financeira e atuarial

3 Matemática financeira e atuarial 3 Matemática financeira e atuarial A teoria dos juros compostos em conjunto com a teoria da probabilidade associada à questão da sobrevivência e morte de um indivíduo são os fundamentos do presente trabalho.

Leia mais

Modelos Pioneiros de Aprendizado

Modelos Pioneiros de Aprendizado Modelos Pioneiros de Aprendizado Conteúdo 1. Hebb... 2 2. Perceptron... 5 2.1. Perceptron Simples para Classificaçãod e Padrões... 6 2.2. Exemplo de Aplicação e Motivação Geométrica... 9 2.3. Perceptron

Leia mais

CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO TURMA ANO INTRODUÇÃO

CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO TURMA ANO INTRODUÇÃO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS ESCOLA DE GESTÃO E NEGÓCIOS CURSO DE CIÊNCIAS CONTÁBEIS, ADMINISTRAÇÃO E ECONOMIA DISCIPLINA: ESTRUTURA E ANÁLISE DE CUSTO CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO

Leia mais

Curvas em coordenadas polares

Curvas em coordenadas polares 1 Curvas em coordenadas polares As coordenadas polares nos dão uma maneira alternativa de localizar pontos no plano e são especialmente adequadas para expressar certas situações, como veremos a seguir.

Leia mais

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos Descrição da precipitação pluviométrica no munícipio de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos Idemauro Antonio Rodrigues de Lara 1 Renata Alcarde 2 Sônia Maria De

Leia mais

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll! Os parâmetros para decisão do auditor.! Tipos de planos de amostragem estatística em auditoria. Francisco Cavalcante(f_c_a@uol.com.br) Administrador de Empresas

Leia mais

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES Monitora Juliana Dubinski LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES EXERCÍCIO 1 (INTERVALO DE CONFIANÇA PARA MÉDIA) Suponha que X represente a duração da vida de uma peça de equipamento. Admita-se

Leia mais

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição. 38.1 Teste Chi-Quadrado

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição. 38.1 Teste Chi-Quadrado Parte X Testedegeradoresde números aleatórios Os usuários de uma simulação devem se certificar de que os números fornecidos pelo gerador de números aleatórios são suficientemente aleatórios. O primeiro

Leia mais

3 Planejamento de Experimentos

3 Planejamento de Experimentos 3 Planejamento de Experimentos Segundo Montgomery (2004) os métodos de controle estatístico do processo e o planejamento experimental, são duas ferramentas muito poderosas para a melhoria e otimização

Leia mais

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

Documentação da Pesquisa de Satisfação Sistemas de TI 2010

Documentação da Pesquisa de Satisfação Sistemas de TI 2010 Assunto : Análise quantitativa referente à Pesquisa de Satisfação com os Sistemas de Tecnologia da Informação - TRT10-2010. 1. Introdução 1.1. O objetivo deste trabalho é documentar a análise quantitativa

Leia mais

Considerações sobre redimensionamento de motores elétricos de indução

Considerações sobre redimensionamento de motores elétricos de indução Considerações sobre redimensionamento de motores elétricos de indução Artigo publicado na revista Lumiere Electric edição nº 166 Aplicações de investimentos dentro das empresas sempre são questionadas

Leia mais

ADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie

ADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie 1 INTRODUÇÃO 1.1 ORGANIZAÇÃO E PROCESSOS A administração está diretamente ligada às organizações e aos processos existentes nas mesmas. Portanto, para a melhor compreensão da Administração e sua importância

Leia mais

PROBABILIDADE. Aula 5

PROBABILIDADE. Aula 5 Curso: Psicologia Disciplina: Métodos Quantitativos Profa. Valdinéia Data: 28/10/15 PROBABILIDADE Aula 5 Geralmente a cada experimento aparecem vários resultados possíveis. Por exemplo ao jogar uma moeda,

Leia mais

Q-Acadêmico. Módulo CIEE - Estágio. Revisão 01

Q-Acadêmico. Módulo CIEE - Estágio. Revisão 01 Q-Acadêmico Módulo CIEE - Estágio Revisão 01 SUMÁRIO 1. VISÃO GERAL DO MÓDULO... 2 1.1 PRÉ-REQUISITOS... 2 2. ORDEM DE CADASTROS PARA UTILIZAÇÃO DO MÓDULO CIEE... 3 2.1 CADASTRANDO EMPRESAS... 3 2.1.1

Leia mais

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22 Outline Cap 8 Análise de Resíduos 1 Cap 1 Introdução 2 Cap 2 O tempo 3 Cap 3 Funções de Sobrevida 4 Cap 4 Não-Paramétrica 5 Cap 8 Análise de Resíduos Carvalho MS (2009) Sobrevida 1 / 22 Objetivos Analisar

Leia mais

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro TÍTULO : PLANO CONTÁBIL DAS INSTITUIÇÕES DO SISTEMA FINANCEIRO NACIONAL - COSIF 1 6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro 1. Aplicação 1- As instituições

Leia mais

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase 36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase Problema 1 Turbo, o caracol, está participando de uma corrida Nos últimos 1000 mm, Turbo, que está a 1 mm por hora, se motiva e

Leia mais

Aula 1: Demonstrações e atividades experimentais tradicionais e inovadoras

Aula 1: Demonstrações e atividades experimentais tradicionais e inovadoras Aula 1: Demonstrações e atividades experimentais tradicionais e inovadoras Nesta aula trataremos de demonstrações e atividades experimentais tradicionais e inovadoras. Vamos começar a aula retomando questões

Leia mais

AULAS 02 E 03 Modelo de Regressão Simples

AULAS 02 E 03 Modelo de Regressão Simples 1 AULAS 02 E 03 Modelo de Regressão Simples Ernesto F. L. Amaral 04 e 09 de março de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução à

Leia mais

Avaliação Econômica. Relação entre Desempenho Escolar e os Salários no Brasil

Avaliação Econômica. Relação entre Desempenho Escolar e os Salários no Brasil Avaliação Econômica Relação entre Desempenho Escolar e os Salários no Brasil Objetivo da avaliação: identificar o impacto do desempenho dos brasileiros na Educação Básica em sua renda futura. Dimensões

Leia mais

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M. Material Teórico - Módulo de FRAÇÕES COMO PORCENTAGEM E PROBABILIDADE Fração como porcentagem Sexto Ano do Ensino Fundamental Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M. Neto

Leia mais

Desenvolvimento de uma Etapa

Desenvolvimento de uma Etapa Desenvolvimento de uma Etapa A Fase Evolutiva do desenvolvimento de um sistema compreende uma sucessão de etapas de trabalho. Cada etapa configura-se na forma de um mini-ciclo que abrange as atividades

Leia mais

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG-2010 - APO

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG-2010 - APO Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG-010 - APO 11. O Dia do Trabalho, dia 1º de maio, é o 11º dia do ano quando o ano não é bissexto. No ano de 1958, ano em que o Brasil ganhou,

Leia mais

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais. Prof. Janete Pereira Amador Introdução Os métodos utilizados para realização de inferências a respeito dos parâmetros pertencem a duas categorias. Pode-se estimar ou prever o valor do parâmetro, através

Leia mais

Especialização em Engenharia Clínica

Especialização em Engenharia Clínica Especialização em Engenharia Clínica Introdução a Bioestatística Docente: > Marcelino M. de Andrade, Dr. Apresentação: Módulo 02 Teoria Elementar da Amostragem A teoria elementar da amostragem é um estudo

Leia mais

INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA

INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA Marcos Leomar Calson Mestrando em Educação em Ciências e Matemática, PUCRS Helena Noronha Cury Doutora em Educação

Leia mais

Análise de Sobrevivência Aplicada à Saúde

Análise de Sobrevivência Aplicada à Saúde Roteiro Análise de Sobrevivência Aplicada à Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Conceitos Básicos 2. Técnicas Não Paramétricas 3. Modelos Probabilísticos e Inferência 4. Modelos de

Leia mais

Equações Diferenciais Ordinárias

Equações Diferenciais Ordinárias Equações Diferenciais Ordinárias Uma equação diferencial é uma equação que relaciona uma ou mais funções (desconhecidas com uma ou mais das suas derivadas. Eemplos: ( t dt ( t, u t d u ( cos( ( t d u +

Leia mais

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini E-mail: prof.andre.luis.belini@gmail.com /

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini E-mail: prof.andre.luis.belini@gmail.com / Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini E-mail: prof.andre.luis.belini@gmail.com / andre.belini@ifsp.edu.br MATÉRIA: GESTÃO DE PROJETOS Aula N : 10 Tema: Gerenciamento

Leia mais

3 Previsão da demanda

3 Previsão da demanda 42 3 Previsão da demanda Este capítulo estuda o processo de previsão da demanda através de métodos quantitativos, assim como estuda algumas medidas de erro de previsão. Num processo de previsão de demanda,

Leia mais

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis Curso de Avaliações Prof. Carlos Aurélio Nadal cnadal@ufpr.br 1 AULA 03 Revisão: Noções básicas de estatística aplicada a avaliações de imóveis 2 OBSERVAÇÃO: é o valor obtido durante um processo de medição.

Leia mais

Função bayesiana em R para o problema de Behrens-Fisher multivariado

Função bayesiana em R para o problema de Behrens-Fisher multivariado Função bayesiana em R para o problema de Behrens-Fisher multivariado Patrícia de Siqueira Ramos 1 2 Daniel Furtado Ferreira 3 1 Introdução Um dos problemas mais comuns na Estatística aplicada é o de comparar

Leia mais

Notas de Cálculo Numérico

Notas de Cálculo Numérico Notas de Cálculo Numérico Túlio Carvalho 6 de novembro de 2002 2 Cálculo Numérico Capítulo 1 Elementos sobre erros numéricos Neste primeiro capítulo, vamos falar de uma limitação importante do cálculo

Leia mais

Problemas de Valor Inicial para Equações Diferenciais Ordinárias

Problemas de Valor Inicial para Equações Diferenciais Ordinárias Problemas de Valor Inicial para Equações Diferenciais Ordinárias Carlos Balsa balsa@ipb.pt Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança Matemática Aplicada - Mestrados

Leia mais

Equações Diferenciais Ordinárias

Equações Diferenciais Ordinárias Capítulo 8 Equações Diferenciais Ordinárias Vários modelos utilizados nas ciências naturais e exatas envolvem equações diferenciais. Essas equações descrevem a relação entre uma função, o seu argumento

Leia mais

Os Estilos de Pesquisa na Computação. TCC 2013. Profº Carlos José Maria Olguín prof.olguin@gmail.com carlos.olguin@unioeste.br

Os Estilos de Pesquisa na Computação. TCC 2013. Profº Carlos José Maria Olguín prof.olguin@gmail.com carlos.olguin@unioeste.br Os Estilos de Pesquisa na Computação TCC 2013. Profº Carlos José Maria Olguín prof.olguin@gmail.com carlos.olguin@unioeste.br O que é pesquisa? Procurar respostas para indagações propostas; No Michaelis,

Leia mais

3 Qualidade de Software

3 Qualidade de Software 3 Qualidade de Software Este capítulo tem como objetivo esclarecer conceitos relacionados à qualidade de software; conceitos estes muito importantes para o entendimento do presente trabalho, cujo objetivo

Leia mais

Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade

Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade Você aprendeu o que é função probabilidade e função densidade de probabilidade e viu como esses conceitos são importantes

Leia mais

4. Metodologia. Capítulo 4 - Metodologia

4. Metodologia. Capítulo 4 - Metodologia Capítulo 4 - Metodologia 4. Metodologia Neste capítulo é apresentada a metodologia utilizada na modelagem, estando dividida em duas seções: uma referente às tábuas de múltiplos decrementos, e outra referente

Leia mais

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO Prof. Leugim Corteze Romio Universidade Regional Integrada URI Campus Santiago-RS leugimcr@urisantiago.br Prof.

Leia mais

2 Investimentos em Tecnologia da Informação

2 Investimentos em Tecnologia da Informação Investimentos em Tecnologia da Informação 19 2 Investimentos em Tecnologia da Informação Este capítulo visa apresentar os conceitos básicos e definições que farão parte do desenvolvimento desta dissertação.

Leia mais

Sistemas Lineares. Módulo 3 Unidade 10. Para início de conversa... Matemática e suas Tecnologias Matemática

Sistemas Lineares. Módulo 3 Unidade 10. Para início de conversa... Matemática e suas Tecnologias Matemática Módulo 3 Unidade 10 Sistemas Lineares Para início de conversa... Diversos problemas interessantes em matemática são resolvidos utilizando sistemas lineares. A seguir, encontraremos exemplos de alguns desses

Leia mais