Continualizações das Distribuições Geométrica e Poisson Cícero Carlos Ramos de Brito 1 Wilson Rosa de Oliveira Jr. 2 Kleber Napoleão Nunes de Oliveira Barros 3 Kleber Régis Santoro 2 1 Introdução Consta na literatura várias generalizações e extensões das distribuições simétricas e assimétricas, discretas e contínuas, algumas apontadas em Cysneiros et al (2005), Cordeiro e Castro (2009) e Barros (2010). Nota-se que a importância desses novos modelos é que, dependendo da situação, existe a necessidade de modelos mais sensíveis à massa de dados ou, então, de modelos mais robustos para não detectar pontos aberrantes ou outliers. Com o avanço dos estudos na área computacional, sofisticadas técnicas matemáticas são utilizadas para desenvolver novos modelos matemáticos aplicados a estudos de diversos fenômenos, visto que, as hipóteses básicas utilizadas geram modelos que, alterando os valores de alguns coeficientes, estimativa do parâmetro, de positivo para negativo, as equações resultantes podem modelar muito bem o fenômeno estudado de acordo com a área em questão (BRITO, 2005). O objetivo geral deste trabalho consiste em propor uma nova distribuição contínua criada a partir de uma generalização da distribuição de Poisson, e aplicá-la, testando-a e comparando-a com os modelos comumente conhecidos na literatura. Verificar-se-á sua validade, a partir das caracterizações desses modelos, tais como média, variância, desvio-padrão, desvio-médio, curtose, assimetria, função geradora de momentos, função característica e análise gráfica. De acordo com Brito (2009) temos que a variável aleatória tem distribuição contínua, com suporte em, com o vetor de parâmetros, se sua função densidade é contínua. Denotamos e denominamos de variável aleatória contínua. As distribuições mais comuns encontradas na literatura pertencentes 1 PGBEA UFRPE / IFPE. e-mail: cicerocarlosbrito@yahoo.com.br 2 PGBEA UFRPE 3 PGBEA UFRPE / DE, CCT UEPB
a esta família de distribuições não-lineares são: As distribuições normal, Exponencial potência, Logística tipos I e II, Laplace, t-student, Cauchy, t Student generalizada, Kotz, Kotz generalizada, Uniformes, Exponencial, Gama, Beta e generalizações e extensões de algumas distribuições contínuas, entre outras, pertencente a esta classe. 2 Materiais e Método A seguir passamos a descrever diversas propriedades comuns às distribuições contínuas. Podemos ver que, se, então as propriedades de caracterização são: P1) Função geradora de momentos da distribuição: P2) Função característica da distribuição: P3) Calculo dos momentos da distribuição: Para, temos a média da distribuição dada pela expressão: P4) Cálculo dos momentos centrais da distribuição dada pela expressão: Para, temos a variância dada pela expressão:
P5) Cálculo dos coeficientes geral, de assimetria e de curtose da distribuição: Considerando a expressão, podemos ainda escrever, Assim para., temos o coeficiente de assimetria dada pela expressão: E, portanto: Já para, temos o coeficiente de curtose dada pela expressão. E, portanto: P6) Cálculo do coeficiente geral de variação da distribuição: Assim para, temos o desvio-médio dada pela expressão: Já para, temos a variância dada pela expressão: P7) Cálculo do coeficiente geral de dispersão da distribuição:
Assim para, temos o desvio-médio dada pela expressão: Já para, temos o desvio-padrão dada pela expressão: Com os métodos que empregados nesta pesquisa foi possível gerar uma nova distribuição probabilidade. Existem várias técnicas para se criar e generalizar distribuições de Probabilidades. Uma referência, por exemplo, encontra-se em Cordeiro e Castro (2009). A seguir será demonstrada uma das técnicas por nós desenvolvidas a qual consideramos importante como inovação para obtenção de outros resultados. Esta técnica denominada de continualização de distribuição discretas consiste na criação de modelos de distribuições de probabilidades, a partir de distribuições discretas tornando-as contínuas. Para isso basta escolher um conjunto contínuo que contenha o conjunto domínio discreto da distribuição, fazendo se necessário, algumas pequenas modificações no modelo e em seguida a normalização do mesmo (BRITO, 2013). Vejamos a definição formal dessa técnica: Seja, ou seja,, com, onde é um conjunto enumerável, logo temos que a continualização da distribuição discreta, ou seja, que, em que é um conjunto contínuo contendo, definido adequadamente de acordo com a necessidade da situação (pesquisador) (BRITO, 2013). Assim, a expressão que define a será definida conforme abaixo:. conhecidas. Veremos a seguir, a continualização de algumas distribuições discretas mais
Classe de Generalização: Continualização da Distribuição Geométrica Seja, ou seja,, com, logo temos que a continualização da distribuição Geométrica será Como Portanto, a Geométrica Continualizada será: Observando as expressões acima percebemos que se trata da distribuição exponencial, basta supor, ou seja,. Assim, substituindo temos que: Portanto, deduzimos que a Geométrica Continualizada é a distribuição Exponencial. Classe de Generalização: Discretização da Distribuição Exponencial Seja, ou seja,, com, logo temos que a discretização da distribuição Exponencial será: Assim, a Exponencial discretizada por esta técnica será definida conformes expressões abaixo:
Ou ainda que Como e. Portanto, a Exponencial discretizada será: Observando as expressões acima percebemos que se trata da distribuição geométrica, basta supor, ou seja,. Assim, substituindo temos que: Portanto, deduzimos que a Exponencial discretizada é a distribuição Geométrica. Classe de Generalização: Continualização da Distribuição de Poisson Seja, ou seja,, com, logo temos que a continualização da distribuição Poisson será Portanto, a Poisson Continualizada será:
Com função de distribuição: Definimos a função normalizadora densidade temos que:, logo para a função E função de distribuição fica, Para se obter um ajuste a um conjunto de dados particular, costuma-se obter a função de verossimilhança e maximizar e igualar a zero o seu logaritmo, denominado função de log-verossimilhança, definidos por: e. Assim, para a distribuição de Poisson Continualizada, a log-verossimilhança é: Cuja derivada é Considerando, temos que:
Assim, não há estimador de máxima verossimilhança. Teremos então de lançar mão de um artifício numérico, tal como o algoritmo de Newton-Raphson para obter a otimização de. A título de curiosidade, impondo a condição de, temos que e assim o estimador de máxima verossimilhança se reduz a média, que é justamente o estimador para a distribuição de Poisson. Critério de informação de Akaike AIC: Akaike (1974) utiliza a Informação de Kullback-Leibler para testar se um dado modelo é adequado. Porém seu uso é limitado, pois depende da distribuição g (modelo verdadeiro), que é desconhecida. Mostrou que o viés é dado assintoticamente por, em que é o número de parâmetros a serem estimados no modelo, e definiu seu critério de informação como: Dentre todos os modelos testados, deve-se preferir aquele que tem o menor AIC. Critério de informação bayesiano BIC: por: O Critério de Informação Bayesiano (BIC), proposto por Schwarz (1978) é dado em que é a verossimilhança é o modelo escolhido, é o número de parâmetros a serem estimados e é o número de observações da amostra. Tal como o AIC, este critério seleciona entre todos os modelos testados aquele que tem o menor BIC.
Teste de Wald: O teste de Wald é gerado pela razão entre a estimativa de máxima verossimilhança do parâmetro ( ) e a sua respectiva estimativa do erro padrão. Sob a hipótese tem distribuição normal padrão. A estatística do teste Wald é então definida por Esta estatística é comparada com o valor crítico da normal padrão, que ao nível de confiança de é, aproximadamente, igual a 2. Assim, se a estimativa é duas vezes maior que o erro padrão, em valores absolutos, a estimativa é dita significativa. 3 Resultados e discussão A seguir na Figura 1.a podemos observar a função de densidade da distribuição de Poisson Continualizada para alguns valores de. O comportamento desta distribuição é bastante similar ao da distribuição gama, embora seja uma distribuição menos flexível. Na Figura 1.b é mostrada a função de probabilidade de Poisson para os mesmos valores de, a título de comparação. Observe que x aumenta a massa da distribuição continualizada tende mais rápido a zero que a distribuição discreta e que, por sua vez, está é sempre superior à primeira.
Média, Variância 0 1 2 3 4 5 Densidade 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Probabilidade 0.0 0.1 0.2 0.3 0.4 0.5 Distribuição de Poisson Continualizada Distribuição de Poisson 0.7 0.9 1 1.5 2 0.7 0.9 1 1.5 2 0 1 2 3 4 5 6 x 0 1 2 3 4 5 6 x (a) (b) Figura 1 Densidade da distribuição de Poisson Continualizada e função de probabilidade de Poisson para e. Em seguida, na Figura 2, computamos a esperança e a variância da distribuição Poisson Continualizada num mesmo gráfico. Percebemos que, contrariamente ao que acontece com a distribuição de Poisson, em que a média e a variância coincidem, tais valores geralmente são ligeiramente diferentes, embora quando aumente ambas as funções tendem para a mesma assíntota, isto é, para grandes valores de a diferença entre a esperança e a variância é desprezível. Média Variância 0 1 2 3 4 5 Figura 2 - Esperança e Variância da distribuição de Poisson Continualizada para entre zero e cinco. variando
Curtose 0 2 4 6 8 10 Assimetria -2 0 2 4 A distribuição de Poisson Continualizada exibe forte assimetria positiva para valores de menores que, é aproximadamente simétrica entre e um, e é assimétrica negativa para valores maiores que um, conforme a Figura 3 na qual podemos observar tal formato para valores de entre e quatro. 0 1 2 3 4 Figura 3 Assimetria da distribuição de Poisson Continualizada para entre zero e quatro. Na Figura 4, é possível se observar o gráfico da curtose para a ditribuição de Poisson Continualizada. Por ele podemos deduzir os estados leptocúrtico, platicúrtico e leptocúrtico, respectivamente, à medida que se aumenta. 0 1 2 3 4 5 Figura 4 Curtose da distribuição de Poisson Continualizada para entre zero e cinco.
Densidade 0.0 0.2 0.4 0.6 0.8 1.0 Para verificar o ajuste da distribuição de Poisson Continualizada a um conjunto de dados, propomos uma simulação de cem valores gerados a partir de uma distribuição gama com parâmetros e. Os valores gerados são mostrados a seguir: 0,61 0,41 1,01 0,51 0,41 1,31 0,11 1,01 0,21 0,61 1,21 0,31 0,31 0,41 1,11 0,31 1,11 0,21 0,11 0,31 0,01 0,61 0,71 0,11 0,11 0,41 0,41 0,81 0,31 0,21 0,51 0,11 0,31 0,61 0,41 0,21 0,01 2,51 1,01 0,31 0,41 1,11 1,31 0,71 1,41 1,21 2,01 0,11 0,31 1,31 1,51 0,21 0,11 0,61 0,71 0,81 1,81 2,61 0,61 1,61 0,31 0,61 0,81 2,11 2,01 1,71 0,51 0,31 0,41 0,81 0,01 1,21 0,91 0,31 0,71 0,21 1,81 1,51 3,51 0,61 1,11 0,21 0,21 0,61 0,41 0,21 0,61 0,51 0,61 1,11 1,01 2,01 0,31 0,21 0,11 0,71 0,31 0,71 0,71 0,41. Em seguida ajustamos as distribuições de Poisson Continualizada, gama, lognormal e exponencial ao histograma dos dados, cujo resultado é indicado na Figura 5. Poisson Continualizada Gama Log-normal Exponencial 0 1 2 3 4 Dados Figura 5 Histograma dos dados simulados e respectivos ajuste das distribuições de Poisson Continualizada, gama, log-normal e exponencial. A seguir, na Tabela 1, mostramos as estimativas dos parâmetros, erros padrões, estatísticas de Wald, AIC e BIC para cada modelo ajustado ao conjunto de dados. Pelas estatísticas de Wald, percebemos que as estimativas dos parâmetros são
significativamente diferentes de zero para todos os modelos ajustados. Tanto AIC, quanto BIC indicam um menor valor para a distribuição de Poisson Continualizada, o que verifica que a mesma gera um melhor ajuste dentre as distribuições testadas para este específico conjunto de dados. Assim, verifica-se que para algum conjunto de dados a distribuição proposta é superior a distribuições comumente utilizadas em estudos de Análise de Sobrevivência. Tabela 1 Algumas estatísticas de ajustes para as distribuições de Poisson Continualizada, gama, log-normal e exponencial. Modelos Estimativas Erros-Padrões Wald AIC BIC Poisson Como visualmente não conseguimos 0,400 discernir 0,064 entre 6,267 139,494 142,100 Continualizada Gama 1,341 0,171 7,835 139,695 144,905 1,805 0,278 6,489 Log-Normal -0,714 0,107-6,667 158,693 163,904 1,147 0,162 7,071 Exponencial 1,346 0,135 10,000 142,588 145,193 Para este trabalho utilizamos alguns casos particulares que convieram ao mesmo, de um subtópicos de uma das técnicas de criação, generalizações e extensões de distribuições probabilísticas. Acrescente-se que não esgotamos as possibilidades dos resultados obteníveis, ficando como continuação para trabalhos futuros, não só a obtenção de tais novas distribuições através de técnicas de generalizações tais como: as famílias das distribuições exponencializadas, betas, entre outras, bem como suas utilizações nas diversas áreas de conhecimento.
4 Conclusão Como observações finais, podemos notar que a técnica desenvolvida neste trabalho, nos permite trabalhar e criar classes e famílias de distribuições podendo trabalhar com qualquer domínio discreto e contínuo, ampliando assim as possibilidades de trabalhar com distribuições não ficando restrito às distribuições com domínios rígidos das conhecidas. Podemos observar que a técnica de domínio modificado (continualizações e discretizações de distribuições de probabilidades) de criação apresentada neste trabalho gera uma quantidade não enumeráveis, de classes de famílias de distribuições, e consequentemente o mesmo para modelos probabilísticos, que poderão ser aplicados em trabalhos futuros em diversas áreas. Para este trabalho utilizamos alguns casos particulares, nomeadamente as distribuições Geometrica Continualizada e de Poisson Continualizada. No caso da primeira distribuição concluímos que a mesma é a distribuição exponencial. Já para a distribuição Poisson Continualizada obtivemos seus quatro primeiros momentos e a ajustamos a um conjunto de dados, verificando que a mesma é adequada quando comparada com distribuições da literatura clássica. Podemos ainda observar que as técnicas de criação de domínio modificado apresentadas neste trabalho permitem criar uma nova modalidade de generalizações, como são os casos das continualizações de distribuições discretas e discretizações de distribuições contínuas. No caso das distribuições Geométrica e Exponencial, são as formas discretizada e continualizada uma da outra, mais conhecidas na literatura, e é esta relação que faz com que as duas tenham a propriedade de falta de memória.
5 Referências AKAIKE, Hirotugu (1974), A new look at the statistical model identification, IEEE Transactions on Automatic Control 19 (6): 716 723. BARROS, K. N. N. O. Abordagem clássica e Bayesiana em modelos simétricos transformados aplicados à estimativa de crescimento em altura de Eucalyptus urophylla no Polo Gesseiro do Araripe-PE. 2010. 84f. Dissertação (Mestrado em Biometria e Estatística Aplicada). Universidade Federal Rural de Pernambuco, Recife. BRITO, C. C. R. Novos modelos de crescimento resultantes da combinação e variações dos modelos de Chapman-Richards e Silva-Bailey, aplicados em Leucena [Leucaena leucocephala (Lam) de Wit] e tubarão Junteiro (Carcharhinus porosus). 2005. 141 p. Dissertação (Mestrado em Biometria) - Universidade Federal Rural de Pernambuco, Recife. BRITO, C. C. R. Correção de Bartlett nos modelos não-lineares simétricos heteroscedásticos 2009. 160 p. Dissertação (Mestrado em Estatística) Universidade Federal de Pernambuco, Recife. BRITO, C. C. R. Novas funções geradoras de classes de famílias de distribuições probabilísticas. 2013. N de p?. Tese em andamento (Doutorado em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife. CORDEIRO, G. M.; CASTRO, M. A new family of generalized distributions. Journal of Statistical Computation & Simulation Vol. 00, Nº. 00, 1-17, Ago. 2009. CYSNEIROS, F. J. A.; PAULA, G. A.; GALEA, M. Modelos Simétricos Aplicados. Águas de São Pedro: 2005. Disponível em: < http://www.de.ufpe.br /~cysneiros/ texto_final.pdf >. Acesso em: 01 abr. 2012). SCHWARZ, Gideon E. (1978). Estimating the dimension of a model. Annals of Statistics 6 (2): 461 464.