Robustecendo a distribuição normal

Documentos relacionados
O problema da superdispersão na análise de dados de contagens

MODELOS DE REGRESSÃO PARAMÉTRICOS

O problema da superdispersão na análise de dados de contagens

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Prof. Lorí Viali, Dr.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

3 A técnica de computação intensiva Bootstrap

REGRESSÃO NÃO LINEAR 27/06/2017

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

4 Critérios para Avaliação dos Cenários

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

Prof. Lorí Viali, Dr.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Variável discreta: X = número de divórcios por indivíduo

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

ALGORITMOS PARA DADOS AUMENTADOS

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma

Prof. Lorí Viali, Dr.

Algarismos Significativos Propagação de Erros ou Desvios

Métodos Avançados em Epidemiologia

1. CORRELAÇÃO E REGRESSÃO LINEAR

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

EM (Dempster, Laird, Rubin: 1977)

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Testes não-paramétricos

Análise de Regressão

Análise Descritiva com Dados Agrupados

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

2 Incerteza de medição

Associação entre duas variáveis quantitativas

CURSO de ESTATÍSTICA Gabarito

Resumos Numéricos de Distribuições

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Probabilidade e Estatística I Antonio Roque Aula 4. Resumos Numéricos de Distribuições

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

Estatística I Licenciatura MAEG 2006/07

Gráficos de Controle para Processos Autocorrelacionados

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

Regressão Linear Simples by Estevam Martins

8 - Medidas Descritivas

Estatística II Antonio Roque Aula 18. Regressão Linear

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

4 Discretização e Linearização

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

Análise de Regressão Linear Múltipla VII

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

a média populacional do i-ésimo tratamento; o efeito do i-ésimo tratamento na variável dependente Y e mede o afastamento da média µ

PROVA 2 Cálculo Numérico. Q1. (2.0) (20 min)

UNIVERSIDADE NOVA DE LISBOA Faculdade de Economia Análise de Dados e Probabilidade 2º Semestre 2008/2009 Exame Final 1ª Época. Grupo I (4 Valores)

CORRELAÇÃO E REGRESSÃO

AULA EXTRA Análise de Regressão Logística

Classificação de Padrões

Análise de Regressão Linear Múltipla IV

6 Análises de probabilidade de ruptura de um talude

1ª PROVA DE ESTATÍSTICA EXPERIMENTAL

JOCELY NASCIMENTO LOPES

UNIVERSIDADE FEDERALDO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS FACULDADE DE ESTATÍSTICA CURSO DE BACHARELADO EM ESTATÍSTICA

DELINEAMENTOS EXPERIMENTAIS

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

5 Implementação Procedimento de segmentação

Módulo I Ondas Planas. Reflexão e Transmissão com incidência normal Reflexão e Transmissão com incidência oblíqua

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

U N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA

7 - Distribuição de Freqüências

TABELAS E GRÁFICOS PARA VARIÁVEIS ALEATÓRIAS QUANTITATIVAS CONTÍNUAS

Análise de influência

MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES. Camila Xavier Sá Peixoto Pinheiro

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Contagens em dispositivos de pesagens (scale counting)

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

4.1 Modelagem dos Resultados Considerando Sazonalização

Métodos para Determinação do Valor Característico da Resistência à Compressão Paralela às Fibras da Madeira

DISTRIBUIÇÃO DE FREQUÊNCIAS

Gabarito da Lista de Exercícios de Econometria I

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

AEP FISCAL ESTATÍSTICA

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

EXERCÍCIO: VIA EXPRESSA CONTROLADA

SELEÇÃO DE MODELOS VOLUMÉTRICOS PARA CLONES DE EUCALYPTUS SPP., NO PÓLO GESSEIRO DO ARARIPE

A redução na pressão sangüínea (mm Hg) em um período de quatro semanas observadas em cães experimentais está tabulada abaixo:

Cap. 11 Correlação e Regressão

Tânia Lucia Hojo (UFMG) Sueli Aparecida Mingoti (UFMG)

Cálculo Numérico BCC760 Interpolação Polinomial

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Transcrição:

Robustecendo a dstrbução normal Marcos Rafael Noguera Cavalcante Dssertação apresentada ao Insttuto de Matemátca e Estatístca da Unversdade de São Paulo para obtenção do título de Mestre em Cêncas Programa: Estatístca Orentador: Prof. Dr. Heleno Bolfarne Durante o desenvolvmento deste trabalho o autor recebeu auxílo nancero do CNPq São Paulo, novembro de 15

Robustecendo a dstrbução normal Esta versão da dssertação contém as correções e alterações sugerdas pela Comssão Julgadora durante a defesa da versão orgnal do trabalho, realzada em 6/11/15. Uma cópa da versão orgnal está dsponível no Insttuto de Matemátca e Estatístca da Unversdade de São Paulo. Comssão Julgadora: Prof. Dr. Heleno Bolfarne - IME-USP Prof a. Dr a. Slva Nagb Elan - IME-USP Prof. Dr. Cao Lucdus Naberezny Azevedo - UNICAMP-Externo

Hno DeMolay A coroa da juventude nca Até o merdano a nossa jornada Contempla em nós, brlho do meo da Perante este altar, a promessa sagrada. Que soberanos sejam os nossos deas Luzes no camnho de vrtudes mortas Que estas sete velas sejam nossa Le O Brasão Heroco da Ordem DeMolay. Consagrada batalha da vda Conduz o camnho da retdão Em nossa bandera mponente, estendda Estão os baluartes da nossa Nação. Que soberanos sejam os nossos deas Luzes no camnho de vrtudes mortas Que estas sete velas sejam nossa Le O Brasão Heroco da Ordem DeMolay. Sob a regênca do Pa Celestal Nos das de aurora até o apogeu Que em nossa Ordem sejam um snal De honra que o fogo não feneceu. Que soberanos sejam os nossos deas Luzes no camnho de vrtudes mortas Que estas sete velas sejam nossa Le O Brasão Heroco da Ordem DeMolay. Que Deus te abençoe mãe. Que Deus te abençoe pa. Que Deus abençoe a causa da Ordem DeMolay. Amém!

Agradecmentos Gostara de agradecer: Prmeramente a Deus, nosso Pa Celestal, pos sem Ele nada sera possível e é por causa Dele que consegu superar todos os obstáculos ao longo dos meus estudos. Aos meus pas, Luzeva e Marcos, pelos seus carnhos, conselhos, cudados, ensnamentos e amor ncondconal. Sem eles eu não tera força para segur em frente, pos eles são o meu porto seguro. Foram eles que sempre me ncentvaram a lutar pelos meus sonhos. São eles que eu sempre podere contar em todos os momentos de mnha vda. E os meus rmãos que apesar das nossas brgas, sempre me apoaram e torceram por mm. À mnha esposa, Rosane, que sempre esteve ao meu lado todos os das e fo compreensva nos momentos que não pude lhe dar a atenção que ela merece. Tenho muto a agradecer ao meu orentador, Heleno, pos sem sua grande pacênca e compreensão eu não podera ter obtdo este título que me orgulho tanto. Não posso dexar de agradecer aos meus professores que me ensnaram todo que eu se, sem seus ensnamentos e conselhos eu não podera ter chegado até aqu. Fo graças aos meus mestres que tve ao longo da mnha vda de estudante que me torne quem sou hoje. Aos meus grandes amgos que conhec todos estes anos. Na graduação conhec pessoas ncríves que me ensnaram muto. Na resdênca unverstára pude convver com pessoas muto dferentes das mas dversas opnões, elas me ajudaram muto a crescer. No IME conhec amgos que re levar para toda a vda. Fo graças a todos os momentos felzes que tvemos que pude aprovetar ao máxmo esta jornada. Nunca podera dexar de agradecer aos meus rmãos da Ordem DeMolay e aos meus tos Maçons. Fo graças a eles que pude melhorar as vrtudes que me foram ensnadas por meus pas. São as vrtudes de um DeMolay que moldaram o homem que eu sou. Enm, a todas as pessoas que zeram parte de cada momento que levou à mnha conclusão do mestrado.

v

Resumo CAVALCANTE, M. R. N. Robustecendo a dstrbução normal. 15. 93 f. Dssertação Mestrado) - Insttuto de Matemátca e Estatístca, Unversdade de São Paulo, São Paulo, 15. Esta dssertação tem como objetvo o estudo da dstrbução slash, consderando seus casos smétrco e assmétrco unvarados. Serão apresentadas propredades probablístcas e nferencas dessa dstrbução, assm como peculardades e problemas. Para serem fetas nferêncas será consderado o enfoque clássco através do uso dos métodos dos momentos e máxma verossmlhança. São apresentados também os cálculos para a obtenção destes estmadores. Nos casos onde estes estmadores não podem ser obtdos algebrcamente foram utlzados métodos computaconas, através da mplementação do algortmo EM. Para sto, fo utlzado o software R e os comandos estão no Apêndce A. No caso dos estmadores de máxma verossmlhança será mplementado o método de Lous para estmar os elementos da matrz de nformação de Fsher. Foram realzados estudos de smulação e aplcações para dados reas. Nas aplcações fo analsado o modelo de regressão lnear smples, onde fo consderado que os erros seguem dstrbução slash assmétrca. Palavras-chave: Dstrbução slash, Dstrbução slash assmétrca. v

v

Abstract CAVALCANTE, M. R. N. Robustfyng the normal dstrbuton. 15. 93 f. MSc dssertaton - Insttuto de Matemátca e Estatístca, Unversdade de São Paulo, São Paulo, 15. Ths dssertaton ams at studyng the slash dstrbuton consderng ts symmetrc and asymmetrc versons. We present probablstc as well as nferental aspects of ths dstrbuton, ncludng peculartes and problems related to model ttng. The classcal approach based on maxmum lkelhood estmaton s used. Moments estmaton s also consdered as startng values for the maxmum lkelhood estmaton. The mplementaton of the EM algorthm s developed for the mplementaton of the lkelhood approach. For ths mplementaton software R was used and codes requred are presented n the Appendx. As a byproduct of the EM algorthm, Lous method s consdered for estmatng the Fsher nformaton matrx whch can be used for computng large sample ntervals for model parameters. Extensons for a smple regresson model s consdered. Smulaton studes are presented llustratng the performance of the estmaton approach consdered. Results of real data analyss ndcate that the methodology can perform well n appled scenaros. Keywords: Dstrbuton slash, dstrbuton slash asymmetrcal. v

v

Sumáro Lsta de Abrevaturas Lsta de Símbolos Lsta de Fguras Lsta de Tabelas x x xv xv 1 Introdução 1 1.1 Organzação da dssertação................................ 1 Dstrbução slash smétrca 3.1 Introdução.......................................... 3. Momentos.......................................... 5..1 Estmadores pelo método dos momentos..................... 6.3 Estmação por máxma verossmlhança......................... 7.3.1 Algortmo EM................................... 7.3. Matrz de nformação de Fsher.......................... 9.3.3 Método de Lous.................................. 1.3.4 Aplcando o algortmo............................... 1.4 Estudo de smulação.................................... 13.4.1 1 Caso : q conhecdo............................... 13.4. Caso : q desconhecdo.............................. 16.5 Aplcação em dados reas................................. 19 3 Dstrbução slash assmétrca 3 3.1 Introdução.......................................... 3 3. Dstrbução slash assmétrca............................... 4 3.3 Momentos.......................................... 5 3.3.1 Assmetra e curtose................................ 6 3.3. Estmadores pelo método dos momentos..................... 7 3.4 Máxma verossmlhança.................................. 7 3.4.1 Algortmo EM................................... 8 3.4. Matrz de nformação de Fsher.......................... 9 3.4.3 Método de Lous.................................. 3 3.4.4 Aplcando o algortmo............................... 34 x

x SUMÁRIO 3.5 Estudo de smulação.................................... 35 3.5.1 q conhecdo..................................... 35 3.6 Aplcação em dados reas................................. 37 4 Regressão lnear 39 4.1 Introdução.......................................... 39 4. Regressão lnear smples.................................. 4 4..1 Algortmo EM................................... 4 4.. Matrz de nformação de Fsher.......................... 43 4..3 Método de Lous.................................. 43 4..4 Aplcando o algortmo............................... 48 4.3 Aplcação em dados reas................................. 5 5 Consderações nas 53 5.1 Trabalhos futuros...................................... 53 A Comandos do R 55 A.1 Dstrbução slash com q conhecdo............................ 55 A.1.1 Smulações..................................... 55 A.1. Aplcação...................................... 56 A. Dstrbução slash com q desconhecdo.......................... 58 A..1 Smulações..................................... 58 A.. Aplcação...................................... 61 A.3 Dstrbução slash assmétrca com q conhecdo..................... 63 A.3.1 Smulações..................................... 63 A.3. Aplcação...................................... 65 A.4 Regressão lnear smples.................................. 68 Referêncas Bblográcas 73

Lsta de Abrevaturas ASS EC EM EQM SL SN SSL Coecente de assmetra Excesso de curtose Algortmo EM - Esperança e Maxmzação Erro quadrátco médo Dstrbução slash Dstrbução normal assmétrca Dstrbução slash assmétrca x

x LISTA DE ABREVIATURAS

Lsta de Símbolos γ Função gama ncompleta Γ Função gama Ψ Função acumulada de uma dstrbução gama no ponto 1 φ Densdade de uma dstrbução normal padrão Φ Acumulada de uma dstrbução normal padrão ˆµ m, ˆσ m, ˆq m, ˆλ m Estmadores pelo método dos momentos ˆµ mv, ˆσ mv, ˆq mv, ˆη mv, ˆτ mv Estmadores pelo método de máxma verossmlhança DGI Função dgama ncompleta I F θ) Matrz de nformação de Fsher I O θ) Matrz de nformação observada x

xv LISTA DE SÍMBOLOS

Lsta de Fguras.1 Densdade da dstrbução Betaq,1)............................ 4. Densdade da dstrbução SL,1,q)............................ 5.3 Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ e b) estmatvas de σ. 14.4 Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ, b) estmatvas de σ e c) estmatvas de q.................................... 17.5 Hstograma do percentual de gordura dos atletas australanos........... 19 3.1 Densdade da normal assmétrca.............................. 3 3. Densdade da dstrbução SSLµ, σ, λ, q)......................... 5 3.3 Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução SSL1,9,5, -) consderando q conhecdo. a) estmatvas de µ, b) estmatvas de σ e c) estmatvas de λ.................................... 36 4.1 Boxplot dos atletas australanos.............................. 5 4. Dspersão dos atletas australanos por percentual de gordura e peso.......... 5 xv

xv LISTA DE FIGURAS

Lsta de Tabelas.1 Estmatvas para os parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1................................. 13. Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1......... 14.3 Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em 5 réplcas de tamanho gual a, 5 e 1............ 15.4 Estmatvas para os parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1................. 16.5 Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1.......................................... 17.6 Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1............................................ 18.7 Estatístcas para a varável Bfat.............................. 19.8 Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q).................................9 Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q), onde q, 1; 19..................... 1.1 Estmatvas dos componentes da matrz de covarâncas dos estmadores dos parâmetros µ e σ para q, 1; 19............................... 3.1 Estmatvas de máxma verossmlhança para os estmadores dos parâmetros da dstrbução SSL1,9,5,-), com 5 réplcas de tamanho gual a, 5 e 1....... 35 3. Víco e Erro Quadrátco Médo EQM) das estmatvas de máxma verossmlhança para os estmadores dos parâmetros da dstrbução SSL1,9,5,-), com 5 réplcas de tamanho gual a, 5 e 1.............................. 35 3.3 Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em 5 réplcas de tamanho gual a, 5 e 1............ 36 3.4 Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SSLµ, σ, q, λ).............................. 37 3.5 Estmatvas dos elementos da matrz de covarâncas dos estmadores dos parâmetros µ, η e τ............................................ 37 4.1 Estatístcas dos resíduos................................... 51 xv

xv LISTA DE TABELAS

Capítulo 1 Introdução Exstem mutas stuações prátcas onde a usual suposção de normaldade dos dados não é a deal. Isso ocorre devdo a város problemas, um destes é a falta de smetra dos dados. Uma alternatva é a nclusão de um parâmetro, λ, para modelar a assmetra, assm tem-se a dstrbução normal assmétrca. Quando utlza-se em modelos de regressão as dstrbuções normal e normal assmétrca, estes são sensíves a presença de observações extremas ou aberrantes outlers). Assm, estudaremos como alternatva uma famíla mas geral de dstrbuções que nclu como casos partculares as dstrbuções normal e normal assmétrca. Esta famíla de dstrbuções é denomnada slash assmétrca. A dstrbução slash assmétrca possu quatro parâmetros: posção, escala, forma e assmetra. Com os parâmetros de forma e assmetra esta dstrbução é bem mas geral e bem menos sensível, sendo uma boa alternatva à dstrbução normal. O prncpal objetvo deste trabalho é dscutr os aspectos nferencas na estmação dos parâmetros das dstrbuções slash e slash assmétrca. Para tal será utlzado o enfoque clássco. Para a obtenção dos estmadores dos parâmetros serão consderados os métodos dos momentos e de máxma verossmlhança. No método de máxma verossmlhança para a obtenção dos estmadores fo utlzado o algortmo EM. Com a nclusão do parâmetro de forma, q, o algortmo ca mas lento, uma forma de acelerar o algortmo é consderar q conhecdo. Para uma escolha mas ecaz de q fo utlzado o método de Lous. Para avalar os estmadores foram realzadas smulações e aplcações em dados reas. Fo realzado também um estudo sobre um modelo de regressão lnear smples, onde fo suposto que os erros seguem a dstrbução slash assmétrca. 1.1 Organzação da dssertação A presente dssertação de mestrado está dvda em cnco capítulos. No segundo capítulo, apresentamos a denção da dstrbução slash e algumas propredades, dentre elas, os momentos, assmetra e curtose. São apresentados também os estmadores para os parâmetros do modelo pelo método dos momentos e de máxma verossmlhança. Para a avalação dos estmadores são realzadas smulações e aplcação em dados reas. No tercero capítulo, apresentamos as denções das dstrbuções normal assmétrca e slash assmétrca e algumas propredades: como os momentos, assmetra, curtose e outros. São apresentados também os estmadores de máxma verossmlhança. Para a avalação dos estmadores são realzadas smulações e aplcação em dados reas. No quarto capítulo estudamos o modelo de regressão lnear smples, onde ao nvés de supormos que os dados seguem dstrbução normal, suporemos que os dados seguem dstrbução slash assmétrca. E no qunto capítulo, são apresentadas conclusões dos resultados obtdos neste trabalho e perspectvas de trabalhos futuros. 1

INTRODUÇÃO 1.1

Capítulo Dstrbução slash smétrca Neste captulo será denda a dstrbução slash smétrca. Serão apresentadas propredades e métodos de estmação. Os estmadores apresentados são obtdos pelos métodos dos momentos e de máxma verossmlhança. No estmador de máxma verossmlhança será utlzado o algortmo EM, juntamente com o método de Lous para estmar a matrz de nformação de Fsher. São apresentados também um estudo de smulação para dos casos: q parâmetro de forma) conhecdo e desconhecdo. Será também realzada uma análse para dados reas..1 Introdução Em stuações prátcas mutas vezes a suposção de normaldade dos dados não é a deal, como quando exstem outlers. A dstrbução slash é uma alternatva à dstrbução normal. Isto ocorre porque ela possu propredades nteressantes como a dstrbução normal. Além dsso tem a dstrbução normal como caso lmte e anda possu caudas mas pesadas, o que a torna menos sensível a outlers. Wang e Genton 6) apresentam como denção para a dstrbução slash o segunte cocente S = Z SL, 1, q), q >, U 1/q onde, Z Normal, 1) ndependente de U Unforme, 1). Consderando a varável aleatóra U, unformemente dstrbuída no ntervalo,1). E a transformação M = U 1/q. Como esta transformação é bunívoca, então F M m) = P M m) = P U 1/q m) = P U m q ) = F U m q ) Sabe-se que se U Unforme, 1), então F U u) = ui,1) u) + I 1, ) u). Assm, F M m) = m q I,1) m) + I 1, ) m) = f M m) = qm q 1 I,1) m). Desta forma, U 1/q Betaq, 1). Assm, pode-se utlzar a segunte denção para a dstrbução slash. Dene-se uma varável aleatóra, S, com dstrbução Slash quando esta é dada por S = Z U SL, 1, q), q > onde, Z N ormal, 1) ndependente de U Betaq, 1). Com densdades dadas, respectvamente, por f Z z) = e z / π I R z) e f U u) = qu q 1 I,1) u) 3

4 DISTRIBUIÇÃO SLASH SIMÉTRICA.1 Na Fgura.1 encontra-se a densdade da dstrbução beta para város valores de q. fx) 4 6 8 1 Beta,1;1) Beta,;1) Beta,5;1) Beta1;1) Beta;1) Beta5;1) Beta1;1)...4.6.8 1. x Fgura.1: Densdade da dstrbução Betaq,1). Utlzando-se o método do jacobano tem-se que a densdade de S é dada por f S s) = 1 qu q φsu)du = q ) q + 1 γ 8π, s I R s), onde, φu) é a densdade da dstrbução normal padrão no ponto u. A função gama ncompleta é dada por γα, β) = Γ α) β α Ψ α, β). A função Ψ α, β) é a função dstrbução acumulada de uma varável aleatóra Gamaα, β) no ponto 1. Se q = 1, obtém-se a dstrbução slash padrão, ou na forma canônca, que possu densdade na forma smplcada { φ) φs) f S s) =, se s ; s, se s =. φ) Para obter uma dstrbução slash com parâmetros de posção e escala, quando há nteresse, basta usar a propredade de lneardade ver Wang e Genton, 6). Ou seja, se o nteresse é obter uma dstrbução com parâmetros de posção e escala, respectvamente, µ e σ é só utlzar a slash canônca, e em seguda, fazer uma transformação lnear. O modelo está, portanto, na classe dos modelos de localzação-escala. Assm se S SL, 1, q), então X = µ + σs SLµ, σ, q).

. MOMENTOS 5 Na Fgura. encontra-se a densdade da dstrbução slash para város valores de q. fx)..1..3.4 Normal;1) SL;1;,1) SL;1;,) SL;1;,5) SL;1;1) SL;1;) SL;1;5) SL;1;1) 1 5 5 1 x Fgura.: Densdade da dstrbução SL,1,q).. Momentos Seja S = Z/U SL, 1, q). Para encontrar os momentos não centras basta utlzar o fato de que Z e U são ndependentes. Assm o k-ésmo momento não central é dado por Z ES k k = E U k 1 = EZ k E U k. Desta forma, precsa-se encontrar os momentos não centras das dstrbuções normal padrão e beta. Consderando Z N ormal, 1), tem-se {, se k é ímpar; EZ k = k/ Γ k+1 ) π, se k é par. Por outro lado, se U Betaq, 1) 1 E U k = q, para q > k. q k Sendo assm, conclu-se que o k-ésmo momento não central da dstrbução slash é dado por {, se k é ímpar e q > k; ES k = k/ Γ k+1 ) q, se k é par e q > k. π q k

6 DISTRIBUIÇÃO SLASH SIMÉTRICA.3 Pode-se vercar também, que a dstrbução slash só possu esperança para q > 1, sendo ES =, e só possu varânca para q >, sendo V ars = q q ver Wang e Genton, 6). O excesso de curtose, EC, é dado por EC = ES ES)4 ES ES) 3 = ES4 ES 3 = 3 q q q 4 q ) q ) 4q + 4 3 = 3 q 1 = 4q 1 qq 4). Nota-se que só é possível calcular a curtose para q > 4, e que EC >. Assm a dstrbução slash é leptocúrtca, ou seja, possu cauda mas pesada do que a dstrbução normal. Quando q aumenta o excesso de curtose tende a zero. Para encontrar o k-ésmo momento não central de uma dstrbução slash geral é só usar a propredade da lneardade menconada anterormente...1 Estmadores pelo método dos momentos Denndo uma amostra aleatóra de tamanho n de uma varável aleatóra X. Sabe-se que o k-ésmo momento populaconal e amostral, respectvamente µ k e m k, são dados por µ k = EX k e m k = Consderando S SL, 1, q), tem-se que n =1 Xk ES =, q > 1; ES = q q, q > ; ES 3 =, q > 3; ES 4 = 3 q q 4, q > 4. Agora, utlzando o fato de que X = µ + σs SLµ, σ, q), temos que e EX = Eµ + σs = µ, q > 1; EX = Eµ + σs) = µ + σ q q, q > ; EX 3 = Eµ + σs) 3 = µ 3 + 3µσ q q, q > 3; EX 4 = Eµ + σs) 4 = µ 4 + 6µ σ q q + q 3σ4 q 4, q > 4. Igualando os momentos populaconas aos momentos amostras obtém-se os estmadores pelo método dos momentos. A equação encontrada gualando o tercero momento populaconal ao amostral não obtém nformação sobre o parâmetro q, assm precsa-se utlzar a equação do quarto momento. ˆµ m = X, q > 1; ˆσ m = n q q ˆσ, se q é conhecdo e maor que ; 4+k + 4+c ˆσ, se q é desconhecdo e maor que 4;. onde X = ˆq m = + 4 + c, se q é desconhecdo e maor que 4; n =1 X n, ˆσ n =1 = X X) 1ˆσ n e c = 4 1/n n =1 X4 X 4 6 X ˆσ. 3ˆσ 4

.3 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 7.3 Estmação por máxma verossmlhança Os estmadores de máxma verossmlhança têm a vantagem de que sua varânca assntótca é dada pelos elementos do nverso da matrz de nformação de Fsher e portanto são mas ecentes que os estmadores pelo método dos momentos. Por sso são mas utlzados do que os estmadores do método dos momentos. Os estmadores de máxma verossmlhança para os parâmetros da dstrbução slash não possuem forma fechada. Logo precsa-se utlzar métodos computaconas para encontrar os estmadores para os parâmetros dessa dstrbução. Um método bastante utlzado é o algortmo EM Esperança e Maxmzação). A dstrbução slash pode ser obtda como uma mstura de normas no parâmetro de escala ver Alberghn, 11). Sua densdade pode ser expressa por f X x) = 1 f X U x u)f U u)du,.1) onde, X U = u Normalµ, σ u ), U Betaq, 1), e X SLµ, σ, q)..3.1 Algortmo EM Quando utlza-se o algortmo EM trabalha-se com outra verossmlhança, denomnada verossmlhança completa. Assm precsa-se modcar a densdade de nteresse para que se obtenha um produto de densdades, uma condconal por uma margnal, como no ntegrando em.1. A dstrbução margnal é chamada de dados faltantes mssng values), pos não são observados e a dstrbução condconal é chamada de dados observados. Assm após observar uma amostra aleatóra de tamanho n obtemos a verossmlhança completa, composta pelos dados observados e os dados faltantes mssng values). A dstrbução slash sendo observada como mstura de normas na escala já está na forma desejada. Consdera-se como dados faltantes a varável aleatóra U. A densdade conjunta de X, U), para os dados observados e faltantes, é expressa por f X,U x, u) = quq 1 πσ e u x µ) σ I R x)i,1) u). Consderamos agora uma amostra aleatóra de tamanho n da dstrbução conjunta de X, U). Obtém-se então, a verossmlhança completa, ou seja n ) q Lθ) = q n πσ ) n/ u e =1 u x µ) =1 σ, onde θ = µ, σ, q) T. É comum utlzar-se o logartmo natural da função de verossmlhança. Pos, como a função logarítmca é estrtamente crescente, então maxmzar Lθ) é equvalente a maxmzar lθ), de modo que lθ) = loglθ)) = n logq) n logπσ ) + q logu ) =1 =1 u x µ) σ.

8 DISTRIBUIÇÃO SLASH SIMÉTRICA.3 Passo E No algortmo EM, na etapa j, precsa-se encontrar a esperança em relação a U do logartmo da função de verossmlhança condconada aos dados observados e aos parâmetros encontrados na etapa j 1. Assm Qθ, θ j 1) ) = Elθ) x, θ j 1) = n logq) n logπσ ) + q =1 β j) 1 =1 β j) x µ) σ. Para facltar os cálculos fo utlzado a segunte transformação R = U. Logo a dstrbução de R X é dada por Desta forma, f R X r x) = f X,Rx, r) f X x) = r q 1 1 r q 1 x µ) r e σ x µ) r e σ. dr e ElogU) X = ElogR 1/ ) X = 1 ElogR) X = 1 1 q 1 log r)r 1 r q 1 e x µ) r e σ x µ) r σ dr, dr EU X = ER X = 1 r q+1 x µ) r e σ 1 r q 1 e σ Manpulando as esperanças acma encontra-se β 1 e β. Assm, β j) 1 = ElogU ) x, θ j 1) = 1 γ q j 1) +1, 1 q+1 γ, 1 r x µ) ) ) x µ j 1) σ j 1) ) ) = x µ j 1) σ j 1) dr. dr 1 DGI qj 1) + 1, 1 ) x µ j 1), σ j 1) e β j) = EU x, θ j 1) = q γ j 1) +3 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 σ j 1) ) ) σ j 1) ) ), sendo DGIα, β) = logγα,β)) α 1 logr)rα 1 e βr dr. = γ α,β) γα,β) a função dgama ncompleta e γ α, β) = γα,β) α =

.3 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 9 Passo M No segundo passo, na etapa j, do algortmo precsa-se maxmzar a esperança do logartmo da verossmlhança completa em relação aos parâmetros. Para tal encontra-se as seguntes dervadas funções escore) Qθ, θ j 1) ) µ Qθ, θ j 1) ) σ = Qθ, θ j 1) ) q =1 = n σ + x µ)β j) σ ; =1 = n q + x µ) β j) σ 4 ; Igualando as dervadas a zero obtém-se que os estmadores dos parâmetros na etapa j são dados por =1 β j) 1. ˆµ mv = µ j) = n =1 βj) x, ˆσ n =1 βj) mv = σ j) ) = n =1 x ˆµ j) ) β j) n e ˆq mv = q j) = n n =1 βj) 1..3. Matrz de nformação de Fsher Os estmadores de máxma verossmlhança possuem propredades assntótcas ótmas. Consderando um vetor de parâmetros θ = µ, σ, q) T, então ˆθ a N 3 θ, I 1 F θ)). Assm os estmadores de máxma verossmlhança são assntotcamente normas, assntotcamente não vesados, E ˆθ = θ, e possuem matrz de covarâncas assntótca gual ao nverso da a matrz de nformação de Fsher. Sendo que, pelo crtéro da nformação, entre os estmadores não vesados a varânca mínma é a varânca encontrada nos elementos do nverso da nformação de Fsher. A matrz de nformação de Fsher é dada por I F θ) = E lθ) θ θ T. Exstem casos onde encontrar a matrz de nformação de Fsher é muto complcado. Nestes casos pode-se estma-la pela matrz de nformação observada, sendo esta um estmador consstente, que é dada por I O θ) = lθ) θ θ T. θ=ˆθ

1 DISTRIBUIÇÃO SLASH SIMÉTRICA.3.3.3 Método de Lous Quando utlza-se o algortmo EM, a matrz de covarâncas assntótca dos estmadores dos parâmetros dada pela matrz de nformação observada é superestmada, pos utlza-se o logartmo da função de verossmlhança completa, onde esta possu mas nformação do que a verossmlhança observada. Assm precsa-se corrgr esta estmatva, e, uma alternatva é usar o método de Lous ver Lm, 7). A proposta de Lous pode ser escrta como lθ) θ θ T Qθ, ˆθ) θ=ˆθ θ θ T θ=ˆθ lθ) V ar θ x, ˆθ θ=ˆθ. Para encontrar a estmatva da matrz de nformação observada ou esperada) precsa-se encontrar prmeramente a matrz de segundas dervadas. Assm, a 11 = =1 a 1 = a 1 = A = Qθ, ˆθ) θ θ T = θ=ˆθ β j) ˆσ ; a = n ˆσ 4 =1 =1 a 11 a 1 a 13 a 1 a a 3 a 31 a 3 a 33. x ˆµ) β j) ˆσ 6 ; a 33 = ṋ q ; x ˆµ)β j) ˆσ 4 ; a 13 = a 31 = a 3 = a 3 =. Em seguda precsa-se encontrar as dervadas da função logarítmca da verossmlhança completa. lθ) = nlogq) nlogπσ ) lθ) σ + q lθ) µ = =1 logu ) =1 = n σ + lθ) q u x µ) σ ; =1 =1 u x µ) σ 4 ; = n q + logu ). =1 u x µ) σ ; Agora, calculando a varânca das dervadas da função logarítmca da verossmlhança completa condconada aos dados e as estmatvas dos parâmetros encontradas na etapa j, tem-se que onde lθ) B = V ar θ x, θ θ=ˆθ j 1) = b 11 b 1 b 13 b 1 b b 3 b 31 b 3 b 33, b 11 = b = x ˆµ) =1 x ˆµ) 4 =1 b 33 = ˆσ 4 V aru x, θ j 1) = 4ˆσ 8 V aru x, θ j 1) = =1 =1 V arlogu ) x, θ j 1) = =1 x ˆµ) β j) 4 β j) ) ) ˆσ 4 ; x ˆµ) 4 β j) 4 β j) ) ) 4ˆσ 8 ; =1 β j) 3 β j) 1 ) );

.3 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 11 b 1 = b 1 = x ˆµ) 3 =1 ˆσ 6 V aru x, θ j 1) = =1 x ˆµ) 3 β j) 4 β j) ) ) ˆσ 6 ; b 13 = b 31 = =1 x ˆµ) ˆσ CovU x, θ j 1), logu ) x, θ j 1) ) = =1 x ˆµ)β j) 5 β j) βj) 1 ) ˆσ ; b 3 = b 3 = x ˆµ) =1 ˆσ 4 CovU x, θ j 1), logu ) x, θ j 1) ) = =1 x ˆµ) β j) 5 β j) βj) 1 ) ˆσ 4. Sendo, β j) 1 = ElogU ) x, θ j 1) = 1 β j) = EU x, θ j 1) = β j) 3 = ElogU )) x, θ j 1) = 1 4 β j) 4 = EU ) x, θ j 1) = β j) 5 = EU logu ) x, θ j 1) ) = 1 γ q j 1) +1 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 q γ j 1) +3 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 γ q j 1) +1 γ σ j 1) ) ) σ j 1) ) ) ; σ j 1) ) ) σ j 1) ) ); x µ j 1), 1 x µ j 1) q j 1) +1, 1 q γ j 1) +5 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 γ q j 1) +3 γ σ j 1) ) ) σ j 1) ) ) ; σ j 1) ) ) σ j 1) ) ); x µ j 1), 1 x µ j 1) q j 1) +1, 1 σ j 1) ) ) σ j 1) ) ). Assm, a matrz de nformação observada pelo método de Lous é dada por C = lθ) θ θ T θ=ˆθ c 11 c 1 c 13 c 1 c c 3 c 31 c 3 c 33 = a 11 + b 11 a 1 + b 1 a 13 + b 13 a 1 + b 1 a + b a 3 + b 3 a 31 + b 31 a 3 + b 3 a 33 + b 33 = c 11 = =1 ˆσ β j) x ˆµ) β j) 4 β j) ) ) ˆσ 4 ; c = =1 ˆσ 4 + 4ˆσ x ˆµ) β j) x ˆµ) 4 β j) 4 β j) ) ) 4ˆσ 8 ; c = ṋ q β j) 3 =1 β j) 1 ) ); c 1 = c 1 = =1 ˆσ x ˆµ)β j) x ˆµ) 3 β j) 4 β j) ) ) ˆσ 6 ;

1 DISTRIBUIÇÃO SLASH SIMÉTRICA.3 c 13 = c 31 = =1 x ˆµ)β j) 5 β j) βj) 1 ) ˆσ ; c 3 = c 3 = =1 x ˆµ) β j) 5 β j) βj) 1 ) ˆσ 4. Desta forma conclu-se que 1 ) ˆθ a N 3 θ, lθ) θ θ T. θ=ˆθ.3.4 Aplcando o algortmo Para utlzar o algortmo precsa-se de valores ncas para os parâmetros, pode-se utlzar as estmatvas obtdas nos estmadores pelo método dos momentos. Assm na etapa j temos sendo e µ j) = n =1 βj) x, σ ) j) = n =1 βj) β j) 1 n =1 x µ j) ) β j) n e q j) = )) = 1 DGI q j 1) + 1, 1 x µ j 1) ) σ ) j 1), β j) = γ q j 1) +3 γ, 1 x µ j 1) ) q j 1) +1, 1 x µ j 1) ) σ ) j 1) )) σ ) j 1) )). n n =1 βj) 1 Repete-se as etapas até a convergênca, para a qual costuma-se adotar um crtéro de parada, como, por exemplo θ j) θ j 1) <, para algum pequeno e maor que zero. Após a convergênca do algortmo utlza-se os valores obtdos nas etapas j e j 1 para encontrar a estmatva dos elementos da matrz de nformação pelo método de Lous. Formalmente temos o algortmo. Passo 1: Incalzar θ = µ, σ, q); Passo : Calcular β j) 1 e β j) ; Passo 3: Calcular θ j) = µ j), σ ) j), q j) ); Passo 4: Voltar ao passo. Iterar o algortmo até que se atnja um crtéro de parada como, por exemplo, θ j) θ j 1) <.,

.4 ESTUDO DE SIMULAÇÃO 13.4 Estudo de smulação No estudo de smulação fo utlzado o software R; para mas detalhes vercar os Apêndces A.1.1 e A..1 com os comandos. As réplcas foram geradas a partr da dstrbução slash com parâmetros: µ = 1, σ = 9 e q = 5. Para encontrar os estmadores serão consderados dos casos: q conhecdo e desconhecdo..4.1 1 Caso : q conhecdo Quando q é conhecdo o problema se reduz a estmar dos parâmetros, posção e escala, o que faclta os cálculos, torna o algortmo mas ecaz e a convergênca mas rápda. Foram smuladas 5 réplcas de tamanhos, 5 e 1. Os comandos estão no Apêndce A.1.1. Na Tabela.1 encontra-se um resumo das estmatvas de máxma verossmlhança e pelo método dos momentos para 5 réplcas de tamanho, 5 e 1. Tabela.1: Estmatvas para os parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆµ ˆσ Méda 1,3 8,511 1,9 8,4 Varânca,745 1,88,785 1,49 Mínmo 7,3,44 6,746,49 1 Quartl 9,51 6, 9,497 5,74 Medana 1,53 7,891 1, 7,55 3 Quartl 1,511 1,394 1,581 9,93 Máxmo 1,53,399 1,7 3,953 Méda 1,1 8,971 1,11 8,85 Varânca,83 4,15,31 5,17 Mínmo 8,515 4,531 8,576 4,139 1 Quartl 9,658 7,59 9,68 7,4 Medana 9,997 8,81 1,7 8,54 3 Quartl 1,391 1,396 1,44 1,4 Máxmo 11,68 17,31 11,838 18,435 Méda 1,8 8,97 1,8 8,93 Varânca,13,36,143 5,393 Mínmo 8,6 5,614 8,543 5,193 1 Quartl 9,779 7,87 9,767 7,554 Medana 1,1 8,853 1,13 8,5 3 Quartl 1,33 9,75 1,54 9,849 Máxmo 11, 15,11 11,78 4,65

14 DISTRIBUIÇÃO SLASH SIMÉTRICA.4 Na Fgura.3 pode-se vercar que as estmatvas de máxma verossmlhança vão tendendo ao verdadero valor do parâmetro quando aumenta-se a quantdade de réplcas. Verca-se também que a varabldade das estmatvas dmnuem. 7 8 9 1 11 1 5 1 15 n= n=5 n=1 n= n=5 n=1 a) b) Fgura.3: Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ e b) estmatvas de σ. Na Tabela. encontra-se o víco e o erro quadrátco médo para os estmadores de máxma verossmlhança. Tabela.: Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆµ ˆσ Víco,34 -,489,9 -,795 EQM,745 11,97,784 13,99 Víco,1 -,8,11 -,195 EQM,83 4,14,31 5,134 Víco,8 -,73,7 -,77 EQM,13,361,143 5,389

.4 ESTUDO DE SIMULAÇÃO 15 Na Tabela.3 encontra-se um resumo do número de terações necessáras para a convergênca dos estmadores de máxma verossmlhança. Tabela.3: Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em 5 réplcas de tamanho gual a, 5 e 1. n Mínmo 1 Quartl Medana Méda 3 Quartl Máxmo 9, 11, 1, 1,93 13, 37, 5 9, 11, 1, 1,78 13,, 1 1, 1, 1, 1,49 13, 18, Após analsar as Tabelas.1,. e.3 e a Fgura.3, pode-se conclur que o algortmo é ecaz na estmação dos parâmetros do modelo, consderando q conhecdo. Verca-se que o algortmo converge rapdamente. O crtéro de parada para conclur a convergênca fo que a dferença, em valor absoluto, entre a j-ésma teração e a j 1)-ésma teração é menor que 1 6 para as estmatvas dos parâmetros µ e σ. Conclu-se também que quando aumenta-se a quantdade de réplcas, o víco e o erro quadrátco médo dmnuíram. Nota-se também que os estmadores de máxma verossmlhança são melhores que os estmadores pelo método dos momentos, pos a varabldade dos estmadores de máxma verossmlhança é menor.

16 DISTRIBUIÇÃO SLASH SIMÉTRICA.4.4. Caso : q desconhecdo Quando q é desconhecdo o algortmo ca mas complcado. A estmação do q afeta na estmação dos demas parâmetros; consequentemente, o algortmo demora mas para convergr. Isso pode ser vercado nas tabelas a segur. Para estudar a convergênca do algortmo foram geradas 5 réplcas de tamanhos, 5 e 1. Como a estmatva de q pode tender ao nnto, foram consderadas somente as réplcas onde a estmatva fo nferor a. Fo escolhdo este valor porque quando o valor de q é maor que a dstrbução slash tende à dstrbução normal. Nos três tamanhos de amostra foram consderadas, respectvamente, 8, 347 e 4 réplcas váldas. Nota-se que quando aumenta o tamanho das réplcas é mas provável a acetação da suposção de que os dados seguem dstrbução slash. Pos rejeta-se menos réplcas e as estmatvas de q estão mas próxmas do verdadero valor do parâmetro. Os comandos estão no Apêndce A..1. Na Tabela.4 encontra-se um resumo das estmatvas de máxma verossmlhança e pelo método dos momentos. Tabela.4: Estmatvas para os parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆq ˆµ ˆσ ˆq Méda 1,67 7,36 5,713 1,89 7,53 4,5 Varânca,716 19,791 5,679,765 1,711,635 Mínmo 7,711,7,748 7,795,434,93 1 Quartl 9,458 3,88,463 9,534 5,165 3,568 Medana 1,19 6,447 3,399 1,55 7,15 4,175 3 Quartl 1,66 9,899 6,899 1,71 9,4 4,383 Máxmo 1,631 1,633 19,673 1,7 18,773 9,76 Méda 1,11 8,45 5,866 1,3 7,956 4,33 Varânca,95 1,137 17,134,319 8,355,11 Mínmo 8,475,579 1,557 8,487,66,13 1 Quartl 9,66 6,188 3,149 9,563 5,95 3,489 Medana 9,973 7,918 4,5 1,17 7,575 4,31 3 Quartl 1,368 1,136 6,956 1,395 9,893 4,65 Máxmo 11,814 3,4 19,817 11,838 16,16 19,11 Méda 1,4 8,76 5,9 1,1 8,94 4,835 Varânca,141 5,185 14,676,155 7,78 18,819 Mínmo 8,937 3,435,189 8,958 1,467,1 1 Quartl 9,757 7, 3,679 9,764 6,556 3,497 Medana 1, 8,434 4,57 1,6 8,18 4,493 3 Quartl 1,45 1,9 6,57 1,61 9,589 5,1 Máxmo 11,6 18,83 19,941 11,16 34,71 84,3

.4 ESTUDO DE SIMULAÇÃO 17 Na Fgura.4 pode-se vercar que as estmatvas de máxma verossmlhança vão tendendo ao verdadero valor do parâmetro quando aumenta-se a quantdade de réplcas. Verca-se também que a varabldade das estmatvas dmnuem. Nota-se anda que consderando q desconhecdo as suas estmatvas possuem uma varação muto grande, sto mostra que este parâmetro é muto sensível e que a sua modelagem necessta de muto cudado. 8 9 1 11 1 5 1 15 5 1 15 n= n=5 n=1 n= n=5 n=1 n= n=5 n=1 a) b) c) Fgura.4: Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ, b) estmatvas de σ e c) estmatvas de q. Na Tabela.5 encontra-se o víco e o erro quadrátco médo para os estmadores de máxma verossmlhança. Tabela.5: Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆq ˆµ ˆσ ˆq Víco,67-1,674,713,89 -,41 -,948 EQM,718,56 6,74,77 14,845 1,531 Víco,1 -,548,866,3-1,51 -,667 EQM,94 1,48 17,834,319 9,41,549 Víco,4 -,73,9,1-1,4 -,165 EQM,14 5,47 15,491,155 8,81 18,8

18 DISTRIBUIÇÃO SLASH SIMÉTRICA.4 Na Tabela.6 encontra-se um resumo das terações necessáras para a convergênca dos estmadores de máxma verossmlhança. Tabela.6: Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1. n Mínmo 1 Quartl Medana Méda 3 Quartl Máxmo 3, 9, 5, 154,8 17,5 831, 5, 3, 47, 13,1 16, 787, 1 1, 3, 44, 19,5 8,.537, Após analsar as Tabelas.4,.5 e.6 e a Fgura.4 conclu-se que o algortmo é menos ecaz quando consdera-se q desconhecdo. No entanto este também é ecaz quando se aumenta o tamanho da amostra. Verca-se que quando o tamanho da amostra aumenta a quantdade de terações necessáras para a convergênca dmnu. Para o estudo de smulação fo utlzado como crtéro de parada quando a dferença, em valor absoluto, entre a j-ésma teração e a j 1)-ésma teração é menor que 1, sso devdo a grande varabldade dos estmadores e ao tempo até a convergênca. Nota-se anda que a varabldade do estmador de q, ˆq é grande, assm quando se aplca o algortmo a dados reas sera nteressante ter uma amostra grande e anda utlzar város valores ncas para q. Percebe-se anda que quando a amostra é grande os estmadores de máxma verossmlhança são melhores que os estmadores pelo método dos momentos, sso devdo a varabldade nas estmatvas ser menor. Uma alternatva para contornar essa grande varabldade na estmatva de q é consderá-lo conhecdo e utlzar o método de Lous para avalar qual sera o melhor valor para q.

.5 APLICAÇÃO EM DADOS REAIS 19.5 Aplcação em dados reas Nesta seção será utlzado o método de Lous para melhorar o algortmo. Consderando q conhecdo, o método de Lous ajuda a escolher qual sera o melhor valor para o parâmetro, assm o algortmo converge mas rápdo. Para a aplcação foram utlzados os dados dos atletas australanos que estão no pacote sn do R, que está dsponível em http://azzaln.stat.unpd.t/sn/. Os comandos estão nos Apêndces A.1. e A... Para o teste do algortmo fo utlzado a varável Bfat, porcentagem de gordura corporal de atletas. Na Tabela.7 encontram-se algumas estatístcas sobre a varável Bf at. Tabela.7: Estatístcas para a varável Bf at. Méda Varânca Mínmo 1 Quartl Medana 3 Quartl Máxmo 13,51 38,31 5,63 8,54 11,65 18,8 35,5 Na Fgura.5 encontra-se o hstograma da varável Bf at, pode-se deduzr que a suposção de normaldade dos dados não é a deal. Densdade...4.6.8 5 1 15 5 3 35 4 Percentual de gordura corporal Bfat Fgura.5: Hstograma do percentual de gordura dos atletas australanos. Aos dados fo aplcado o teste de Shapro-Wlk, este teste tem como hpótese nula que os dados seguem dstrbução normal. Quando o teste fo aplcado encontrou-se um valor p menor que 4, 5 1 9, o que rejeta a suposção de normaldade dos dados. Assm pode-se supor que os dados seguem uma dstrbução que não seja a normal. Iremos consderar essa dstrbução como sendo a SLµ, σ, q).

DISTRIBUIÇÃO SLASH SIMÉTRICA.5 Na Tabela.8 encontram-se as estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q). Para a convergênca do algortmo EM foram necessáras 35 terações. Tabela.8: Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q). Método de estmação ˆµ ˆσ ˆq Momentos 13,51,87 4,4 Máxma verossmlhança 13,45 3,5 1,44 Pelo método de Lous encontram-se as estmatvas dos elementos da matrz de covarâncas. Assm, como a amostra é razoavelmente grande pode-se dzer que ˆµ ˆσ ˆq a N 13, 45 3, 5 1, 44,, 19, 63 1, 6, 63 41, 76 65, 47 1, 6 65, 47 137, 85. Neste caso fo utlzado como crtéro de parada que a dferença, em valor absoluto, entre a j-ésma teração e a j-1)-ésma teração seja menor que 1. Quando utlza-se um crtéro mas rgoroso a estmatva de q aumenta. Utlzando como crtéro 1 4 pode-se dzer que a estmatva va para nnto, pos cresce muto. Assm, sera mas nteressante consderar q conhecdo. Mas a surge a pergunta: qual o melhor valor de q que deve-se utlzar? Para ajudar a escolher o valor de q pode-se utlzar como crtéro a aproxmação para a matrz de nformação de Fsher obtda pelo método de Lous. O valor de q tem que ser postvo, mas nos casos onde q exstem problemas. Como fo vsto quando foram calculados os momentos, os dos prmeros momentos não exstem. Assm serão consderados q, 1; 19. Para q > pode-se dzer que os dados seguem dstrbução normal, pos a dstrbução slash se aproxma da dstrbução normal. Na Tabela.9 encontram-se as estmatvas para µ e σ consderando q, 1; 19. E na Tabela.1 encontram-se as estmatvas dos elementos da matrz de covarâncas. Analsando essas tabelas conclu-se que para q =, 1 as estmatvas para a covarânca entre ˆµ e ˆσ e a varânca para ˆµ são maores. Mas obtém-se a menor estmatva para a varânca de ˆσ. Como a dferença entre as varâncas é mas sgncatva para ˆσ, então escolhe-se q =, 1. Assm, ˆµ ˆσ ) a 1, 73,, 18 N 15, 3,, 18 3, 7 No próxmo capítulo será estudada a dstrbução slash assmétrca, onde a dstrbução slash é um caso partcular. ).

.5 APLICAÇÃO EM DADOS REAIS 1 Tabela.9: Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q), onde q, 1; 19. ˆµ ˆσ q Iterações ˆµ ˆσ q Iterações 1,73539 15,3179,1 3 13,351 6,46481 6, 8 1,7746 15,81548, 13,3144 6,84191 6,5 8 1,8155 16,383,3 13,3536 7,1978 6,5 7 1,84358 16,7813,4 19 13,33543 7,53419 6,75 6 1,8744 17,3588,5 18 13,3447 7,8553 7, 6 1,9 17,673,6 18 13,3619 8,4434 7,5 7 1,9836 18,9364,7 17 13,37557 8,975 8, 7 1,9568 18,4987,8 16 13,38798 9,456 8,5 7 1,97535 18,8893,9 16 13,3988 9,8871 9, 7 1,99654 19,654 3, 15 13,4834 3,85 9,5 6 13,1638 19,6854 3,1 15 13,41674 3,6499 1, 6 13,3499 19,97913 3, 14 13,4418 3,98315 1,5 6 13,548,31778 3,3 14 13,438 31,948 11, 6 13,6894,6451 3,4 13 13,4367 31,57396 11,5 6 13,8447,96164 3,5 13 13,44198 31,8369 1, 6 13,11966 1,791 3,75 1 13,44673 3,794 1,5 6 13,154,39955 4, 1 13,451 3,347 13, 6 13,17751 3,3919 4,5 11 13,45486 3,5148 13,5 5 13,154 3,63336 4,5 11 13,45836 3,7181 14, 5 13,98 4,18669 4,75 1 13,4644 33,6556 15, 5 13,4 4,7319 5, 1 13,46946 33,37776 16, 5 13,5954 5,18636 5,5 9 13,47369 33,65439 17, 5 13,753 5,6398 5,5 9 13,4777 33,915 18, 5 13,8949 6,6464 5,75 8 13,4833 34,14 19, 5

DISTRIBUIÇÃO SLASH SIMÉTRICA.5 Tabela.1: Estmatvas dos componentes da matrz de covarâncas dos estmadores dos parâmetros µ e σ para q, 1; 19. q =, 1 q = 4, q = 9,,3975,1787864,191585,199841,1886841,4533856,1787864 3,73399,199841 6,359785,4533856 9,668331 q =, q = 4, 5 q = 9, 5,19944,1734599,19188,147863,188658,453879,1734599 3,866484,147863 6,59763,453879 9,81351365 q =, 3 q = 4, 5 q = 1,,837,168146,1956791,978486,18865669,39565,168146 4,167395,978486 6,71688343,39565 9,9914593 q =, 4 q = 4, 75 q = 1, 5,1997416,16698,19148,9313931,1886317,3619,16698 4,164774,9313931 6,9415787,3619 1,1795794 q =, 5 q = 5, q = 11,,1988341,1587331,1899969,88936,18865576,3589,1587331 4,3844,88936 7,1338187,3589 1,31577473 q =, 6 q = 5, 5 q = 11, 5,1979773,154759,1896943,858347,18866738,3144456,154759 4,4877747,858347 7,391136,3144456 1,419743 q =, 7 q = 5, 5 q = 1,,1971863,15113,1894819,81618,1886936,979353,15113 4,6187776,81618 7,55359964,979353 1,5313 q =, 8 q = 5, 75 q = 1, 5,19655,14636,1897834,777655,188688,8116,14636 4,7599898,777655 7,78388816,8116 1,64483 q =, 9 q = 6, q = 13,,1958893,1431499,18914517,7355645,1886774,637361,1431499 4,91319,7355645 7,965113,637361 1,75637481 q = 3, q = 6, 5 q = 13, 5,195993,13933,1894318,76998,18869937,46196,13933 5,497433,76998 8,1565161,46196 1,877756 q = 3, 1 q = 6, 5 q = 14,,194793,1354633,18896447,6871435,188691,888,1354633 5,173476,6871435 8,8944985,888 1,9917681 q = 3, q = 6, 75 q = 15,,19433,13578,18886618,65699,1887117,1983,13578 5,987853,65699 8,49737748,1983 11,378848 q = 3, 3 q = 7, q = 16,,19384,188831,1888575,634845,1887514,171551,188831 5,44845,634845 8,643359,171551 11,36519591 q = 3, 4 q = 7, 5 q = 17,,1934379,157875,1887448,584678,1886993,15187,157875 5,546771,584678 8,86766484,15187 11,4954745 q = 3, 5 q = 8, q = 18,,19377,1965,188783,5366934,1887976,1316719,1965 5,664935,5366934 9,18957568,1316719 11,68856 q = 3, 75 q = 8, 5 q = 19,,19488,116481,18865775,498341,18876556,133463,116481 5,9596,498341 9,4471599,133463 11,76564644

Capítulo 3 Dstrbução slash assmétrca Há stuações onde além de apresentar valores atípcos os dados apresentam também assmetra. Nesses casos necessta-se de um parâmetro extra, dgamos λ, para modelar a assmetra dos dados. A dstrbução slash assmétrca é uma generalzação da dstrbução slash. Quando λ = temos a dstrbução slash apresentada no capítulo anteror. A normal assmétrca também é um caso partcular, onde q. Assm como a dstrbução slash é dervada a partr da dstrbução normal, a dstrbução slash assmétrca é dervada a partr da dstrbução normal assmétrca. Sendo assm na próxma seção, den-se a dstrbução normal assmétrca e algumas de suas propredades. 3.1 Introdução Para denr-se a dstrbução slash assmétrca, que denotamos SSL, precsa-se prmero denr a dstrbução normal assmétrca, que denotamos SN. Dz-se que Z possu dstrbução normal assmétrca skew normal) padrão com parâmetro de assmetra λ, SN, 1, λ) ver Azzaln, 1985), se sua função densdade for denda da segunte forma: f Z z) = φz)φλz). Na Fgura 3.1 encontra a densdade da normal assmétrca para város valores de λ. fxx)...4.6.8 1. SN,1,1) SN,1,) SN,1,3) SN,1,4) SN,1,) SN,1, 1) SN,1, ) SN,1, 3) SN,1, 4) 4 4 x Fgura 3.1: Densdade da normal assmétrca. 3

4 DISTRIBUIÇÃO SLASH ASSIMÉTRICA 3. Esta representação gera problemas nas estmatvas de máxma verossmlhança ao utlzar o algortmo EM. Dentre eles pode-se ctar que o estmador para λ pode ser nnto, ou menos nnto, e anda que no caso onde λ = a matrz de nformação de Fsher é sngular ver Rodríguez, 5). Uma forma alternatva de representar a dstrbução SN, 1, λ) é através da representação estocástca ver Henze, 1986). Segue que Z SN, 1, λ) se Z = δy 1 + 1 δ Y, λ 1+λ. onde Y 1 HalfNormal, 1) ndependente de Y Normal, 1) e δ = Sabe-se que quando M Normal, 1), então Y = M HalfNormal, 1). Assm f Y1 = e y 1 / π I R+ y 1 ). Utlzando o método do jacobano e a varável auxlar, W = Y 1, tem-se que a dstrbução conjunta de Z, W ) é dada por f Z,W z, w) = e w / 1 1 1 z δw) π π 1 δ e 1 δ I R +w)i R z), desta forma, W HalfNormal, 1) e Z W = w Normalδw, 1 δ ). 3. Dstrbução slash assmétrca Agora, dene-se a dstrbução slash assmétrca como a dstrbução do quocente S = Z U SSL, 1, q, λ), onde Z SN, 1, λ) ndependente de U Betaq, 1). Obtém-se a dstrbução conjunta S, U, W ), utlzando a forma estocástca da normal assmétrca, como sendo f S,U,W s, u, w) = e w / 1 u 1 u s δw/u) π π 1 δ e 1 δ qu q 1 I R +w)i R s)i,1) u), tem-se que W HalfNormal, 1), S W = w, U = u) Normal δw u, 1 δ u ) e U Betaq, 1). A dstrbução slash assmétrca também possu a propredade da lneardade, assm X = µ + σs SSLµ, σ, q, λ), segue o modelo slash assmétrco de posção-escala. Assm, f X,U,W x, u, w) = π e w / 1 π u σ 1 δ e 1 u x µ σδw/u) σ 1 δ ) onde W HalfNormal, 1), S W = w, U = u) Normal Para facltar os cálculos será utlzada a segunte reparametrzação qu q 1 I R +w)i R x)i,1) u), µ + σδw u, σ 1 δ ) u ) e U Betaq, 1). Logo, η = σδ e τ = σ 1 δ. f X,U,W x, u, w) = π e w / 1 π u τ e 1 u x µ ηw/u) τ qu q 1 I R +w)i R x)i,1) u),

3.3 MOMENTOS 5 com W HalfNormal, 1), X W = w, U = u) Normalµ + ηw u, τ u ) e U Betaq, 1). Na Fgura 3. encontra-se a densdade da dstrbução slash assmétrca para város valores de λ e q. fx)..1..3.4.5.6 SSL;1; ;,1) SSL;1; ;,) SSL;1; ;,5) SSL;1; ;1) SSL;1; ;) SSL;1; ;5) SSL;1; ;1) fx)..1..3.4.5.6 SSL;1; 1;,1) SSL;1; 1;,) SSL;1; 1;,5) SSL;1; 1;1) SSL;1; 1;) SSL;1; 1;5) SSL;1; 1;1) fx)..1..3.4.5.6 SSL;1;;,1) SSL;1;;,) SSL;1;;,5) SSL;1;;1) SSL;1;;) SSL;1;;5) SSL;1;;1) 6 4 4 6 6 4 4 6 6 4 4 6 x x x fx)..1..3.4.5.6 SSL;1;;,1) SSL;1;;,) SSL;1;;,5) SSL;1;;1) SSL;1;;) SSL;1;;5) SSL;1;;1) fx)..1..3.4.5.6 SSL;1;1;,1) SSL;1;1;,) SSL;1;1;,5) SSL;1;1;1) SSL;1;1;) SSL;1;1;5) SSL;1;1;1) fx)..1..3.4.5.6 SSL;1;3;,1) SSL;1;3;,) SSL;1;3;,5) SSL;1;3;1) SSL;1;3;) SSL;1;3;5) SSL;1;3;1) 6 4 4 6 6 4 4 6 6 4 4 6 x x x Fgura 3.: Densdade da dstrbução SSLµ, σ, λ, q). 3.3 Momentos Consderemos S = Z/U SSL, 1, q, λ). Assm como no caso smétrco para encontrar os momentos não centras basta utlzar o fato de que Z e U são ndependentes. Assm, Z ES k k = E U k 1 = EZ k E U k. Desta forma precsa-se encontrar os momentos não centras da dstrbução normal assmétrca padrão e da dstrbução beta. Utlzando o fato de que a dstrbução normal assmétrca pode ser expressa como pode-se calcular o k-ésmo momento não central, para Z = δy 1 + 1 δ Y, EZ k = EδY 1 + 1 δ Y ) k = E nd. = k = k k = k ) δ 1 δ ) k EY 1 EY k, ) δ Y1 1 δ ) k Y k

6 DISTRIBUIÇÃO SLASH ASSIMÉTRICA 3.3 e Y 1 HalfNormal, 1) EY k 1 = k/ π Γ Y Normal, 1) EY k = Assm k ) = k ímpar EZ k = k = k par Por outro lado, se U Betaq, 1) 1 E U k Sendo assm, conclu-se que { k + 1 ),, se k ímpar; π Γ ) k+1, se k par. k/ δ 1 δ ) k k/ π Γ +1 ) δ 1 δ ) k k/ π Γ +1 = q, para q > k. q k ) Γ k +1 ), se k ímpar; ) Γ k +1 ), se k par. ES k = k ) = k ímpar k = k par δ 1 δ ) k k/ π Γ +1 ) δ 1 δ ) k k/ π Γ +1 ) Γ k +1 ) q q k, ) Γ k +1 ) q q k, se k ímpar e q>k; se k par e q>k. Pode-se vercar, que a dstrbução slash assmétrca só possu esperança para q > 1, sendo ES = q q 1 π δ, e só possu varânca para q >, sendo V ars = q q q δ. πq 1) 3.3.1 Assmetra e curtose Utlzando as fórmulas encontradas na seção anteror pode-se calcular os coecentes de assmetra, ASS, e de excesso de curtose, EC, da dstrbução slash assmétrca. sendo ASS = ES ES)3 ES ES) 3/ e EC = ES ES)4 ES ES) 3, ES ES) = q q q δ πq 1), q > ; 3 δ ES ES) 3 = π qδ q 3 3q q 1)q ) + 4q δ ) πq 1) 3, q > 3; ES ES) 4 = 3q q 4 8q δ 3 δ ) πq 1)q 3) + 1q 3 δ πq 1) q ) 1q4 δ 4 π q 1) 4, q > 4. Fazendo q tender ao nnto nos coecentes de assmetra e curtose encontra-se os coecentes da normal assmétrca, que são dados por lm ASS = q π δ3 4 π 1 ) 1 π δ ) 3/ e lm q EC = 8δ4 π 3) π δ ).

3.4 MÁXIMA VEROSSIMILHANÇA 7 A dstrbução slash assmétrca possu uma abrangênca maor para modelar a assmetra do que a dstrbução normal assmétrca, podendo chegar a ntervalos bem amplos se forem consderados valores pequenos para q. Quando o valor de q tende ao nnto o ntervalo se guala ao da normal assmétrca, que é -,9957;,9957 ver Rodríguez, 5). Tem-se anda, que o excesso de curtose é maor que zero, o que conclu que a dstrbução slash assmétrca também é leptocúrtca como no caso smétrco. 3.3. Estmadores pelo método dos momentos Os estmadores pelo método dos momentos para a dstrbução SSLµ, σ, q, λ) possuem formas complexas, o que os tornam nváves, ou até mpossíves de serem obtdos. No entanto consderando a dstrbução slash assmétrca, SSL, 1, q, λ) os estmadores podem ser obtdos. Levando em consderação o prmero e o segundo momentos amostras e populaconas obtém-se que os estmadores são ˆq m = n =1 x n =1 x n e ˆλm = ) sendo que x ˆqm ˆq m 1 π, π, para sua exstênca. Na normal assmétrca o ntervalo para x é dado por x π,. π πˆqm 1) x, 1 πˆqm 1) x ˆq m Comparando-se os estmadores pelo método dos momentos da slash assmétrca com os da normal assmétrca nota-se que o ntervalo de restrção de x é até duas vezes maor que na normal assmétrca ver Rodríguez, 5). E conforme o q aumenta o ntervalo va se equparando ao ntervalo da normal assmétrca, como era de se esperar. Assm, como exste uma restrção com relação aos dados, sso é um problema na escolha desse método de estmação, tem-se também que a estmatva de λ pode dvergr. Verca-se anda que os problemas encontrados na dstrbução normal assmétrca exstem também na slash assmétrca. 3.4 Máxma verossmlhança Os estmadores de máxma verossmlhança para os parâmetros da dstrbução slash assmétrca assm como da dstrbução slash não possuem forma fechada. Desta forma, precsa-se utlzar métodos computaconas para encontrar estmadores para os parâmetros dessa dstrbução. Um método bastante utlzado é o algortmo EM Esperança e Maxmzação). A dstrbução slash assmétrca pode ser obtda como uma mstura de normas nos parâmetros de posção e escala. Que pode ser expressa por f X x) = f X W,U x w, u)f W w)f U u)dudw, onde, X W = w, U = u) Normal µ + ηw u ),, τ W HalfNormal, 1), U Betaq, 1), u X SSLµ, σ λ, q, λ), η = σ e τ = σ 1+λ 1+λ.