LEILLIMAR DOS REIS FREITAS COMPARAÇÃO DAS FUNÇÕES DE LIGAÇÃO LOGIT E PROBIT EM REGRESSÃO BINÁRIA CONSIDERANDO DIFERENTES TAMANHOS AMOSTRAIS



Documentos relacionados
Jackknife, Bootstrap e outros métodos de reamostragem

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

1.4- Técnicas de Amostragem

Séries de Potências AULA LIVRO

CAP. I ERROS EM CÁLCULO NUMÉRICO

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

CAPÍTULO 8 - Noções de técnicas de amostragem

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos

VII Equações Diferenciais Ordinárias de Primeira Ordem

Os juros compostos são conhecidos, popularmente, como juros sobre juros.

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

Capitulo 6 Resolução de Exercícios

somente um valor da variável y para cada valor de variável x.

Módulo 4 Matemática Financeira

Introdução ao Estudo de Sistemas Lineares

ActivALEA. ative e atualize a sua literacia

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse:

Estatística stica para Metrologia

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Lista 9 - Introdução à Probabilidade e Estatística

Problema de Fluxo de Custo Mínimo

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

Otimização e complexidade de algoritmos: problematizando o cálculo do mínimo múltiplo comum

INTRODUÇÃO A TEORIA DE CONJUNTOS

Probabilidades. José Viegas

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

1.5 Aritmética de Ponto Flutuante

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt:

PARECER SOBRE A PROVA DE MATEMATICA FINANCEIRA CAGE SEFAZ RS

Capitulo 9 Resolução de Exercícios

defi departamento de física

EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N

Equações Diferenciais (ED) Resumo

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização

O oscilador harmônico

MATEMÁTICA FINANCEIRA

SUMÁRIO 1. AMOSTRAGEM Conceitos básicos 4

Sistema Computacional para Medidas de Posição - FATEST

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

JUROS COMPOSTOS. Questão 01 A aplicação de R$ 5.000, 00 à taxa de juros compostos de 20% a.m irá gerar após 4 meses, um montante de: letra b

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA

O poço de potencial infinito

Exercícios de Matemática Polinômios

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA

Computação Científica - Departamento de Informática Folha Prática 1

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

ANÁLISE DO PERFIL DOS FUNDOS DE RENDA FIXA DO MERCADO BRASILEIRO

Testes χ 2 (cont.) Testes χ 2 para k categorias (cont.)

Uma Metodologia de Busca Otimizada de Transformadores de Distribuição Eficiente para qualquer Demanda

Prof. Eugênio Carlos Stieler

2.1 Dê exemplo de uma seqüência fa n g ; não constante, para ilustrar cada situação abaixo: (a) limitada e estritamente crescente;

PROF. DR. JACQUES FACON

SÉRIE: Estatística Básica Texto v: CORRELAÇÃO E REGRESSÃO SUMÁRIO 1. CORRELAÇÃO...2

PRESTAÇÃO = JUROS + AMORTIZAÇÃO

PG Progressão Geométrica

Definição 1.1: Uma equação diferencial ordinária é uma. y ) = 0, envolvendo uma função incógnita y = y( x) e algumas das suas derivadas em ordem a x.

Tabela Price - verdades que incomodam Por Edson Rovina

PROBABILIDADES E ESTATÍSTICA

Capítulo 2 Análise Descritiva e Exploratória de Dados

Aplicação de geomarketing em uma cidade de médio porte

Pesquisa Operacional

Neste capítulo, pretendemos ajustar retas ou polinômios a um conjunto de pontos experimentais.

Lista de Exercícios #6 Assunto: Propriedade dos Estimadores e Métodos de Estimação

M = 4320 CERTO. O montante será

Guia do Professor. Matemática e Saúde. Experimentos

MAC122 Princípios de Desenvolvimento de Algoritmos EP no. 1

Diferentes testes para verificar normalidade de uma amostra aleatória

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

Unidade V - Desempenho de Sistemas de Controle com Retroação

UNIVERSIDADE DA MADEIRA

III Simpósio sobre Gestão Empresarial e Sustentabilidade (SimpGES) Produtos eco-inovadores: produção e consumo"

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física

Portanto, os juros podem induzir o adiamento do consumo, permitindo a formação de uma poupança.

Lista de Exercícios #4 Assunto: Variáveis Aleatórias Contínuas

Juros Simples e Compostos

MATEMÁTICA APLICADA À GESTÃO I

Influência do ruído aéreo gerado pela percussão de pavimentos na determinação de L n,w

Profa. Regina Maria Sigolo Bernardinelli. Estatística. Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing

a taxa de juros i está expressa na forma unitária; o período de tempo n e a taxa de juros i devem estar na mesma unidade de tempo.

A TORRE DE HANÓI Carlos Yuzo Shine - Colégio Etapa

J. A. M. Felippe de Souza 9 Diagramas de Bode

UM MODELO DE PLANEJAMENTO DA PRODUÇÃO CONSIDERANDO FAMÍLIAS DE ITENS E MÚLTIPLOS RECURSOS UTILIZANDO UMA ADAPTAÇÃO DO MODELO DE TRANSPORTE

RESISTORES E RESISTÊNCIAS

Lista 2 - Introdução à Probabilidade e Estatística

MINISTÉRIO DAS CIDADES, ORDENAMENTO DO TERRITÓRIO E AMBIENTE Instituto do Ambiente PROCEDIMENTOS ESPECÍFICOS DE MEDIÇÃO DE RUÍDO AMBIENTE

APOSTILA MATEMÁTICA FINANCEIRA PARA AVALIAÇÃO DE PROJETOS

UFRGS MATEMÁTICA

4 Avaliação Econômica

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD

CONHECIMENTOS ESPECÍFICOS

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato

M = C (1 + i) n. Comparando o cálculo composto (exponencial) com o cálculo simples (linear), vemos no cálculo simples:

Transcrição:

LEILLIMAR DOS REIS FREITAS COMPARAÇÃO DAS FUNÇÕES DE LIGAÇÃO LOGIT E PROBIT EM REGRESSÃO BINÁRIA CONSIDERANDO DIFERENTES TAMANHOS AMOSTRAIS Dissertação apresetada à Uiversidade Federal de Viçosa, como parte das exigêcias do Programa de Pós-Graduação em Estatística Aplicada e Biometria, para obteção do título de Magister Scietiae. VIÇOSA MINAS GERAIS BRASIL 213

DEDICATÓRIA Miha família e meu oivo Luís. ii

AGRADECIMENTOS À Uiversidade Federal de Viçosa, pela oportuidade de realização deste curso. A CAPES pelo apoio fiaceiro, esse trabalho só foi possível graças a bolsa que me foi cocedida. Aos professores do Departameto de Estatística, pelos esiametos, dispoibilidade, amizade. Ao professor Sebastião Martis Filho, pela orietação ao logo de todo o mestrado. Ao professor Fabyao Foseca e Silva pelo acompahameto do meu trabalho, paciêcia, cofiaça e icetivo. Ao professor José Ivo Ribeiro Júior, pela coorietação o desevolvimeto deste trabalho. Aos professores que participaram da baca examiadora por terem aceitado o covite e por suas cotribuições oportuas, que certamete eriqueceram o trabalho. Aos amigos de curso, pelo covívio agradável durate a realização deste curso. Ao secretário do curso de pós-graduação em Estatística Aplicada e Biometria pelo apoio, dedicação, ateção e amizade. Aos meus pais, Roseli e Joaquim, mihas irmãs, pela amizade, uião e compreesão em todos os mometos. Ao meu grade compaheiro Luís, pela paciêcia e compreesão, obrigada por estar sempre me fazedo feliz e me apoiado em todos os mometos. Aos amigos de outras datas que me apoiaram e me icetivaram em todos os mometos. Por fim a todos que me esiaram de alguma forma, me apoiaram, me acolheram e que fazem parte da miha história, muito obrigada a todos vocês. iii

BIOGRAFIA LEILLIMAR DOS REIS FREITAS, filha de Joaquim Atôio de Freitas e Roseli dos Reis Freitas asceu em Juiz de Fora, Mias Gerais, o dia 22 de outubro de 1984. Graduou-se em Estatística pela Uiversidade Federal de Juiz de Fora em julho de 21. Em agosto de 21 iiciou o mestrado em Estatística Aplicada e Biometria pela Uiversidade Federal de Viçosa (UFV) tedo defedido a dissertação em 2 de fevereiro de 213. iv

SUMÁRIO LISTA DE FIGURAS...vi LISTA DE TABELAS...vii RESUMO... viii ABSTRACT... ix INTRODUÇÃO... 1 CAPITULO 1 Regressão Biária... 2 1. Caracterização das variáveis... 2 2. Modelo liear geeralizado... 3 3. Regressão Biária... 5 4. Método de estimação da regressão biária... 9 5. Teste de Wald... 12 6. Erro quadrático médio... 14 CAPITULO 2 Fuções de ligação logit e probit a regressão biária via simulação de dados... 16 1. Itrodução... 16 2. Material e Métodos... 18 2.1. Simulação de dados... 18 2.2. Ajuste das equações de regressão biária... 2 2.3. Medidas de desempeho... 21 3. Resultados e Discussão... 23 3.1. Percetual de Covergêcia... 23 3.2. Erro quadrático médio da probabilidade geral... 24 3.3. Erro quadrático médio da probabilidade específica... 26 3.4. Teste de Wald... 3 4. Coclusões... 32 REFERENCIAS BIBLIOGRÁFICAS... 33 APÊNDICE... 36 v

LISTA DE FIGURAS Figura 1 Comparação gráfica das distribuições acumulada logística e ormal.... 7 Figura 2 Esquema das aálises realizadas utilizado as fuções de ligação logit e probit para cada tamaho de amostra... 21 Figura 3 Percetuais de covergêcias do logit e probit... 24 Figura 4 Erro quadrático médio dos dados oriudos das fuções de ligação logit e probit, em fução do tamaho da amostra ().... 25 Figura 5 Erro quadrático médio da probabilidade dos dados oriudos do logit fixados x=1,...,1... 27 Figura 6 Erro quadrático médio da probabilidade dos dados oriudos do probit fixados x=1,...,1... 29 Figura 7 Teste de Wald para a costate, coeficiete e costate com o coeficiete para os dados que tiveram origem as fuções de ligação logit e probit... 31 vi

LISTA DE TABELAS Tabela 1 Tamahos das amostras iiciais, sequêcias da variável idepedete e ovos tamahos das amostras... 18 Tabela 2 Probabilidades de ocorrêcias de Y=1 X=x i calculadas por meio das fuções de ligação logit e probit... 19 Tabela 3 Equação de regressão e grau de ajustameto quato ao erro quadrático médio quadrático da probabilidade dos dados que foram origiados da fução de ligação logit fixados diferetes íveis de x... 26 Tabela 4 Equação de regressão e grau de ajustameto quato ao erro quadrático médio quadrático da probabilidade dos dados que foram origiados da fução de ligação probit fixados diferetes íveis de x... 28 vii

RESUMO FREITAS, Leillimar dos Reis, M.Sc., Uiversidade Federal de Viçosa, fevereiro de 213. Comparação das fuções de ligação logit e probit em regressão biária cosiderado diferetes tamahos amostrais. Orietador: Sebastião Martis Filho. Coorietadores: Fabyao Foseca e Silva e José Ivo Ribeiro Júior. Cosiderou-se um estudo de regressão biária por meio as fuções de ligação logit e probit visado verificar a robustez das fuções de ligação diate da variação do tamaho da amostra. Estas fuções de ligação utilizam, respectivamete, as distribuições acumuladas logística e ormal, sedo a pricipal difereça etre elas os valores de probabilidades os extremos da variável idepedete. Detro desse cotexto, foram realizadas simulações com 5 repetições utilizado amostras de 1 diferetes tamahos, desde 1 a 91, com uma difereça etre as sucessivas amostras de 9 uidades. As medidas de desempeho percetual de covergêcia, erro quadrático médio da probabilidade geral, erro quadrático médio da probabilidade específica, teste Wald para os coeficietes, foram utilizadas para estabelecer uma recomedação para o uso das duas diferetes fuções de ligação quado os dados foram gerados com o uso do logit e probit e aalisados por ambas as fuções de ligação em cada tamaho de amostra. Cocluiu-se que o objetivo desse trabalho foi atigido ao estabelecer uma recomedação para o uso da fução de ligação logit para tamahos iferiores a 2 devido a maior taxa de covergêcia, ou seja, foi verificado com a utilização da fução de ligação logit que há um maior úmero de amostras em que foi possível estimar os parâmetros da regressão biaria. Para maiores tamahos de amostras, utilizado as demais medidas de desempeho, tato o logit como o probit mostraram-se semelhates, pois ão foram ecotradas difereças sigificativas etre esses dois tipos de fuções. viii

ABSTRACT FREITAS, Leillimar dos Reis, M.Sc., Uiversidade Federal de Viçosa, february of 213. Compariso of logit ad probit lik fuctios i regressio biary cosiderig differet sample sizes. Adviser: Sebastião Martis Filho. Co-Advisers: Fabyao Foseca e Silva ad José Ivo Ribeiro Júior. It was cosidered a biary regressio aalysis with the logit ad probit lik fuctio i order to verify the lik fuctios robustess i sample size variatio. These lik fuctios apply, respectively, the cumulative distributios logistics ad ormal, ad the probabilistic mai differece values of idepedet variable extremes. The, simulatios were performed with 5 replicates usig 1 differet sizes samples, from 1 to 91, with 9 successively uits betwee the samples. Performace covergece percetage measures, geeral probabilistic average squared error, specific probabilistic average squared error ad coefficiets Wald test were used to establish a specific use recommedatio for the two differet lik fuctios just whe data were geerated with logit ad probit use ad aalyzed with the both lik fuctios i each sample size. It was cocluded that the work aim was achieved by establishig a recommedatio for the logit lik fuctio use for sizes below 2 due to higher covergece rate, ie, it was verified with logit lik fuctio that there is a greater umber of samples which was possible to estimate the biary regressio parameters. For larger sample sizes, usig other performace measures, both, the logit ad probit, were similar, as there were o sigificat differeces betwee these two differet fuctios. ix

INTRODUÇÃO Nos modelos lieares de regressão, a variável depedete é expressa como uma fução liear dos coeficietes de regressão. Há, o etato, outras classes de modelos em que é possível escrevê-los mediate uma trasformação as variáveis. Quado a variável depedete é do tipo qualitativa dicotômica, há a ecessidade de abordar técicas de regressão biária para o tratameto dos dados, uma vez que os modelos lieares ão terão um bom ajuste. Além disso, um dos pricipais objetivos da regressão biária é estimar a probabilidade de ocorrêcia de determiado eveto, ou seja, os resultados da variável depedete permite a iterpretação em termos probabilísticos. Para BENDER FILHO et al. (21), uma maeira adequada de utilizar modelo baseados em escolhas qualitativas é pelas probabilidades, desse modo existem fuções de ligações específicas como a logit e probit que com a utilização de fuções de distribuições podem realizar o cálculo, essas fuções possuem variável depedete biária. Mas quado essa variável assume mais que duas categorias, é importate utilizar outros métodos como o logit multimomial. De acordo com Barros (28) a escolha da fução de ligação logit assim como a probit é determiada por simples coveiêcia matemática e computacioal De acordo com a abordagem realizada por Cordeiro e Demétrio (27), a fução de ligação logit assim como a probit têm em comum o fato de a variável depedete ser uma variável qualitativa com dois possíveis valores; assim, as fuções de ligação logit e probit são dadas respectivamete pelos iversos das distribuições acumuladas logística e ormal. Devido à difereça as formas das curvas represetativas destas distribuições, é importate avaliar situações as quais uma ou outra descrevem com precisão a probabilidade de iteresse. O presete trabalho teve como pricipal objetivo estabelecer recomedação quato ao uso das fuções de ligação logit e probit em fução do tamaho da amostra. Utilizado 1 diferetes tamahos amostrais e diversas medidas de desempeho, foi possível verificar difereças etre as regressões que foram relevates, de forma a estabelecer recomedações para o uso das fuções logit e probit. 1

CAPITULO 1 Regressão Biária Este estudo aborda métodos de regressão biária simples, cujo pricipal objetivo é a realização do cálculo da probabilidade de se ter determiada característica. Este tipo de regressão possui a vatagem de ser mais flexível com relação a outros tipos. Assim, detro desse cotexto, foram utilizadas as fuções de ligação logit e probit as quais possuem como variável depedete biária. O logit e o probit utilizam de fuções de distribuições especificas para a realização do cálculo da probabilidade, que são respectivamete, a logística e a ormal. Os parâmetros das duas fuções de ligação são estimados de forma iterativa pelo método da máxima verossimilhaça, pois são trasformações das distribuições acumuladas. Etão, o pricipal objetivo deste capítulo é justificar o uso da regressão biária, e diferetes medidas de desempeho, com a abordagem teórica dos coceitos de regressão biária, métodos de estimação utilizados a fim de itroduzir a aplicação prática. 1. Caracterização das variáveis Quado se realiza algum estudo muitas vezes, as variáveis explicativas possuem atureza biária (preseça ou ausêcia, aprovação ou reprovação, positivo ou egativo etre outras). Para Corrar et al. (29), a variável depedete (Y), poderá assumir somete um de dois possíveis valores, chamados por coveiêcia de ou 1; dessa forma, é possível calcular P Y X x p [1] 1 i i e P Y X x 1 p [2] i i como sedo a probabilidade de sucesso e fracasso, respectivamete, correspodete a cada ível x i da covariável. Desse modo, o pricipal objetivo da aálise estatística de regressão biária é ivestigar a relação etre a probabilidade de resposta e as variáveis explicativas. 2

Segudo Hair et al. (29), a atureza da variável depedete biária ( ou 1), viola os pressupostos de regressão liear; por exemplo, ausêcia de ormalidade dos resíduos e a variâcia de uma variável dicotômica ão é costate (heterocedasticidade). Assim, há uma família de modelos para dados categóricos como refere McCullagh e Nelder (1989), mais cohecidos como modelos lieares geeralizados. O modelo mais cohecido é o modelo logístico, baseado a trasformação logística da proporção; há aida o probit que é uma alterativa quado a variável depedete também se apreseta de forma dicotômica. 2. Modelo liear geeralizado Para Casella e Berger (21), a defiição de um modelo liear geeralizado é descrita por uma relação etre a média de uma variável resposta e uma variável depedete, Resede e Biele (22) complemeta que esses modelos, possuem como ideia pricipal ampliar as opções para a variável resposta, assim permitir flexibilidade para a relação etre a média da variável resposta e o preditor liear, ou seja, descreve uma relação etre E(Y) e X. De acordo com Resede e Biele (22), a técica permite a geeralização dos modelos lieares clássicos de variáveis cotíuas, assim a estrutura para estimação dos modelos lieares ormais pode ser estedida para modelos ão lieares. Segudo a abordagem realizada por Cordeiro e Demétrio (27), as variáveis depedetes Y são estabelecidas assim que as observações a serem feitas são defiidas, podedo ser cotíuas ou discretas, com o ajuste de diferetes distribuições, com médias μ i, isto é, E(Y)= μ i, i=1,...,. Cordeiro e Demétrio (27) complemeta que o modelo clássico de regressão é defiido da seguite forma: Y=μ + ε, [3] em que Y é o vetor da variável depedete, μ=e(y)=xβ, compoete sistemático, X é a matriz das variáveis idepedetes do modelo, β é o vetor de parâmetros, ε o compoete aleatório com distribuição ε i ~N(, σ 2 I). Assim, Y~N(μ, σ 2 I), I correspode a matriz idetidade e o vetor de médias μ que defie o compoete aleatório, é igual ao preditor liear do compoete sistemático. 3

Cordeiro e Demétrio (27) acresceta que existem casos em que ão há a satisfação dessa estrutura etre o compoete sistemático e o erro aleatório e ão há motivos para restrição dessa estrutura, em pela distribuição ormal para o compoete aleatório assim como a suposição de homogeeidade de variâcias. Ao logo dos aos outros modelos foram surgido, desse modo um modelo liear geeralizado é defiido por uma distribuição para a variável depedete, um cojuto de variáveis idepedetes, cuja estrutura é liear e uma fução de ligação etre a média da variável depedete e a estrutura liear. De acordo com Cordeiro e Demétrio (27), os modelos lieares geeralizados podem ser utilizados quado existe uma úica variável depedete Y associado a um cojuto de variáveis idepedetes com uma amostra de observações. Agresti (199) acresceta que os modelos lieares geeralizados são compostos de três compoetes pricipais: um compoete aleatório, que idetifica a distribuição de probabilidades da variável resposta; um compoete sistemático (modelo), que especifica a fução liear de variáveis explicativas que são usadas como preditor; e, por fim, uma fução de ligação, que descreve uma relação fucioal etre o compoete sistemático e o valor esperado do compoete aleatório, resumido, estabelece uma ligação etre os dois compoetes. Assim os três compoetes estão defiidos da seguite maeira: i) O compoete aleatório é represetado por um cojuto de variáveis aleatórias depedetes com a mesma distribuição com médias μ 1,...,μ, isto é, em que E(Y i )=μ i i=1,...,, [4] Yi Y1, Y2,..., Y i 1, 2,..., ii) O compoete sistemático, ou variáveis idepedetes ou explicativas (X) do modelo liear geeralizado etram a forma de uma estrutura liear, é estabelecido durate o plaejameto, essas variáveis etram a forma de uma soma liear, ou seja, η=xβ [5] em que X=(X 1,...,X ) T é a matriz do modelo cosistido dos valores das variáveis idepedetes para as observações, β=(β 1,...,β p ) T é o vetor de parâmetros e o preditor liear é dado pelo vetor η=(η 1,...,η ) T. 4

iii) A Fução de ligação é o terceiro compoete do modelo liear geeralizado, é a fução de ligação que depede do tipo de resposta ou da aplicação. Demétrio (22) iforma que uma fução de ligação deve satisfazer a codição de trasformar o itervalo (,1) em valores reais. De um modo geral, relacioa a média ao preditor liear, ou seja, estabelece uma relação liear direta, isto é, i i g i=1,...,. em que g(μ i ) é uma fução de ligação. As fuções de ligação para o logit e probit são respectivamete dadas por: e p i l g pi l 1xi 1 1 pi g p p x 1 1 i i 1 i em que μ= E(Y i ). A defiição abordada por Cordeiro e Demétrio (27) sobre modelos lieares geeralizados iforma que ão há uma aditividade etre o erro aleatório ε e a média μ como o modelo clássico de regressão, produzido o compoete aleatório. Desse modo, o modelo liear geeralizado defie-se uma distribuição para a variável depedete que represeta os dados e ão uma distribuição para o erro. 3. Regressão Biária Segudo Cordeiro e Demétrio (27), detre os métodos estatísticos para a aálise de dados que são casos especiais de modelos lieares geeralizados há o logit e o probit. Stock e Watso (24) acresceta que a fução de ligação logit é semelhate à probit exceto pela substituição da fução de distribuição acumulada utilizada para a realização do cálculo da probabilidade, ou seja, equato que a fução de ligação logit utiliza da distribuição logística, a fução de ligação probit utiliza da distribuição ormal, isto é, p i =F(β +β 1 x i ) [6] 5

De acordo com Gujarati (25), efetua-se uma trasformação a variável depedete para o uso da fução de ligação logit, cuja primeira etapa cosiste em covertê-la em uma chace, isto é, 1 1 p i P Y 1 X xi 1x 1 e i 1 e i. [7] A equação 7 é cohecida como fução logística acumulada. Como se pode observar η i varia de - a +, 1 e aida que p i ão se relacioa liearmete com η i ; como p i é ão liear ão somete em X, mas também os βs, portato o método dos míimos quadrados ordiários ão pode ser utilizado. Se a probabilidade de possuir determiada característica é dada por P Y X x p, a probabilidade de ão possuir será dada pela expressão 8. Portato, 1 i i i i i 1 1 e 1 e e 1 1 pi 1 1 e 1 e 1 e e 1 e i i i i i 1 i i i i i p i i 1 e 1 e 1 e 1 e 1 e e e 1 1 i 1 1 i i pi e 1 e 1 1 1 e i i 1 e e i e Desse modo, se p i =,2 tem-se chaces de 1 para 4. p i i. [8] [9] A fução de ligação probit utiliza da fução de distribuição acumulada ormal, ou seja, P Y X x x [1] 1 i 1 i em que Φ é a fução de distribuição acumulada ormal padrão. Se β 1 for positivo, um aumeto em x, aumetará a probabilidade de Y=1, caso cotrário, um aumeto em x dimiuirá a probabilidade de Y=1. De acordo com Stock e Watso (24), a expressão β +β 1 x i o probit, desempeha o papel de z, a tabela de distribuição acumulada ormal padrão. Uma das mais importates fuções de ligação é baseada a trasformação logit e probit para proporção; para se evitar que os valores das probabilidades se situem fora do itervalo [,1] é efetuada uma trasformação ode as fuções de ligação logit e probit são dadas respectivamete por: 6

e 1 p i g p F ( p ) l x 1 i i i 1 i pi 1 i i 1 i [11] g p p x, [12] ou seja, as fuções de ligação são dadas pelas iversas das distribuições acumuladas associadas. A pricipal difereça etre estas duas distribuições (logística e ormal) está as probabilidades referetes aos valores extremos da covariável, ou seja, o peso das suas caudas sedo que as pricipais semelhaças estão as formas das curvas (campaular), simetria e que f(x) tede a zero quado x tede a ± (assitótica com relação ao eixo x), como pode ser observado a Figura 1. Figura 1 Comparação gráfica das distribuições acumulada logística e ormal. De acordo com Corrar et al. (29), quado tem-se um modelo liear, uma das alterativas para se estimar os parâmetros é o metodo dos míimos quadrados, mas o caso do logit e probit, deve-se recorrer a outro método, cohecido como método da máxima verossimilhaça. 7

Segudo Cramer (23), os primeiros trabalhos publicados sobre logit foram feitos o fial das décadas de 195 e 196 em estatística e epidemiologia; a estatística havia uma vatagem aalítica a trasformação do logit em lidar com saídas biárias, uma vez, que todos os cálculos eram realizados a mão. Na epidemiologia o estudo do logit se deu aida mais cedo (195), uma vez que estava diretamete ligada à razão de chaces de probabilidades. Corrar et al. (29) acrescetam que essa técica foi desevolvida para tetar realizar predições ou tetar explicar a ocorrêcia de determiados feômeos quado a variável depedete é de atureza biária. Corrar et al. (29) iformam um dos motivos que as fuções de ligação vêm sedo largamete utilizadas, para realizar predições quado a variável depedete é dicotômica, é devido ao pequeo úmero de restrições que são elas: icluir todas as variáveis para que se obteha maior estabilidade; valor esperado do erro deve ser zero; iexistêcia de autocorrelação etre os erros; iexistêcia de correlação etre os erros e as variáveis idepedetes e; ausêcia de multicoliearidade perfeita etre as variáveis idepedetes. Os últimos autores citados acrescetam que existe um problema quado ão se tem variáveis idepedetes ormais o caso liear, mas como a variável depedete é do tipo dicotômica (com distribuição de Beroulli) e o caso das fuções de ligação logit e probit ão há essa restrição. Quato ao úmero de observações ecessárias para se realizar iferêcias de boa qualidade, ão há a literatura, de acordo com Corrar et al. (29), um coseso. Assim, os autores iformam que quado se trabalha com o logit, devem-se obter amostras maiores que o caso liear, mas essas fuções de ligação possuem a vatagem de acolher mais facilmete variáveis depedetes biárias. Para explicar o sucesso da regressão biária, Corrar et al. (29), atribuem os seguites fatores: acolhe com maior facilidade as variáveis categóricas; uma das alterativas é a aálise discrimiate pricipalmete o que se refere a problemas com homogeeidade de variâcias porém, essa alterativa possui fortes pressuposições como ausêcia de potos discrepates, ormalidade e homogeeidade das variâcias e covariacias; porém é mais adequada a solução de problemas que evolve a estimação de probabilidades. Pereira et al. (27) acresceta que o modelo logit é mais robusto que a aálise discrimiate, uma vez que se aplica a 8

distribuições ão ormais. Se comparado com o probit, o logit tem represetação e tratameto matemático mais simples, justicado a sua maior utilização. Para Cramer (23), a criação do probit é creditada a Gaddum e Bliss, mas Fecher, um estudioso alemão, foi o primeiro a trasformar difereças observadas equivaletes ao desvio ormal. O termo probit foi itroduzido por Gaddum e Bliss, que sigifica uidade de probabilidade, pois em seus escritos, quado iiciou o bioesaio ambos os autores aderiram firmemete ao modelo clássico, ode o estímulo era determiístico e respostas aleatórias, por causa da variabilidade dos íveis de tolerâcia idividual, mas após um ao, essa teoria foi abadoada. De acordo com Cramer (23), sem a teoria do bioesaio, o probit foi rapidamete difudido para qualquer relação que descrevesse um resultado biário discreto a uma ou mais variáveis resposta. Na ecoomia, por exemplo, o probit foi utilizado pela primeira vez a década de 195. Cramer (23) complemeta que, ao logo dos aos, o úmero de trabalhos publicados referetes ao logit teve rápido crescimeto se comparado ao probit; o que se deve pricipalmete à facilidade de se realizar cálculos sem o uso computacioal, uma vez que até aproximadamete 198, a questão computacioal era uma questão importate o que se refere ao uso de cálculos para a realização da estimação. O método de estimação utilizado pelo logit e probit, segudo Stock e Watso (24), é o metodo da máxima verossimilhaça, pois produzem estimadores eficietes (variâcia míima), cosistetes e ormalmete distribuídos para grades amostras, de forma que diversas estatísticas, como o itervalo de cofiaça, podem ser obtidas de forma usual. 4. Método de estimação da regressão biária De acordo com Hair et al. (29), a regressão liear utiliza dos métodos dos míimos quadrados ordiários para realizar a estimação de seus coeficietes, esse método cosiste em miimizar a soma de quadrados das difereças etre os valores observados e os previstos. Na regressão ão liear o método da máxima verossimilhaça é utilizado de forma iterativa para que sejam ecotradas as estimativas mais prováveis dos parâmetros. Ao ivés de miimizar os desvios 9

quadrados, a regressão ão liear maximiza a probabilidade de que um eveto ocorra. Casella e Berger (21) complemetam que quado se usa regressão liear, a técica de míimos quadrados é uma opção para o cálculo dos estimadores; os modelos ão lieares ão há uma coexão direta etre a variável depedete (Y i ) e o compoete sistemático (β +β 1 x i ), assim o metodo dos míimos quadrados ão é mais uma opção, sedo a estimação realizada por meio do método da máxima verossimilhaça. Lemote (26) acresceta que, muito frequetemete, as observações retiradas de uma população com uma fução de desidade de probabilidade F(y, β) são mutuamete idepedetes para todas as distribuições, etão a fução de verossimilhaça L(β, y) do vetor de parâmetros β pode ser escrita como um produtório, L y L, y,..., y F y, F ( y, ), [13] 1 1 i1 i 1 i1 i i ou seja, a fução de desidade de probabilidade cojuta F(y i,β i ) é o produto das desidades de cada uma das observações. A iterpretação da fução de desidade de probabilidade cojuta pode ser descrita como uma fução em que o vetor de parâmetros se tora variáveis. Segudo Casella e Berger (21) o método da máxima verossimilhaça é defiido como sedo os valores dos parâmetros que geram, com maior frequêcia, a amostra observada. Para a realização do procedimeto, deve-se maximizar a fução de verossimilhaça com relação à, assim iguala-se a zero as derivadas parciais da fução de verossimilhaça e determiar que solucioe o cojuto de equações. Etão, para facilitar o mauseio da equação trabalha-se com o logaritmo atural da fução de verossimilhaça (ll), pois maximizar o logaritmo atural de uma fução é, em geral, mais simples e produz os mesmos resultados da maximização da fução origial. Logo, deve-se resolver o sistema U l L para obter a fução escore. Segudo a abordagem realizada por Demétrio (22), as equações U j =, j=1,2,... ão são lieares e devem ser resolvidas por processos iterativos do tipo Newto-Raphso. O método iterativo de Newto-Raphso para a solução de uma 1 j j

dada equação F(x)= é baseado a aproximação de Taylor para a fução F(x) as vizihaças do poto x. Para obter a solução do sistema U l L, Demétrio (22) utiliza da versão multivariada do método de Newto-Raphso, etão j j 1 k k [14] I U k 1 k sedo β k e β k+1 os vetores de parâmetros estimados os passos k e (k+1), o vetor escore (vetor de derivadas parciais de f(x)), com elemetos l/ βj, avaliado o passo 1 k e k I a iversa da egativa da matriz de derivadas parciais de seguda ordem de F(x), com elemetos 2 l/ β j β i, avaliada o passo k. Demétrio (22) acresceta que, se as derivadas de seguda ordem são obtidas facilmete, o método de Newto-Raphso é útil. Mas, isso em sempre ocorre, assim, o caso dos modelos lieares geeralizados utiliza-se o método escore de Fisher, que evolve a substituição da matriz de derivadas parciais de seguda ordem pela matriz de valores esperados das derivadas parciais, ou seja, a substituição da matriz de iformação observada, I, pela matriz de iformação esperada de Fisher,. Logo, 1 k k [15] U k 1 k cujos elemetos de é dado por jk E E [16] i j i j que é a matriz de covariâcias dos U j. Os estimadores de máxima verossimilhaça possuem algumas propriedades ótimas, como ão tedeciosidade ( E ), cosistêcia ( lim E ) e eficiêcia ( lim var ). Para Casella e Berger (21) quado se realiza uma amostragem a partir de uma população descrita por uma fução de probabilidade (f.p.) ou por uma fução 11

desidade de probabilidade (f.d.p.), o cohecimeto do estimador, dado por, gera o cohecimeto de toda a população, assim é ecessário ecotrar um bom estimador; para estimadores potuais qualquer estatística é um estimador. Detro da classe de estimação potual um dos métodos existetes é o dos míimos quadrados ordiários e da máxima verossimilhaça Os métodos de estimação possuem algumas propriedades o que se refere aos estimadores. Segudo Bolfarie e Sadoval (2), essas propriedades são eficiêcia (que são obtidos apeas pela família expoecial de distribuição); um estimador para ser ótimo, de acordo com o critério do meor erro quadrático médio, deve ser fução de uma estatística suficiete (são aquelas que resumem os dados sem perder ehuma iformação, elas são tão iformativas quato à amostra toda). Para uma melhor escolha dos estimadores, Magalhães e Lima (28), iformam que é importate eles possuirem as propriedades de ser ão viciado (viesado) e cosistete. Um estimador, por exemplo, é dito ão viciado se o valor esperado é igual ao observado, ou seja, se E. E, um estimador é dito cosistete se, a medida em que o tamaho da amostra aumeta, o valor esperado do estimador coverge para o parâmetro de iteresse e sua variâcia coverge para zero, ou seja, se lim E e Var lim. Assim, pode-se perceber que a cosistêcia depede do tamaho da amostra, o vício o deve valer para qualquer tamaho de. Magalhães e Lima (28) complemetam que quado dois estimadores forem cosistetes e ão viciados para um parâmetro, pode-se utilizar o coceito de eficiêcia. Cosiderado dois estimadores, 1 e 2, ão viciados para o parâmetro, pode-se dizer que 1 é mais eficiete do que 2 se var 1 var 2. 5. Teste de Wald De acordo com Demétrio (22), existem três estatísticas para testar os parâmetros da regressão biária que são: teste da razão de verossimilhaça, teste de Wald e teste escore. O autor complemeta que essas estatísticas são assitoticamete equivaletes, sedo que o teste da razão de verossimilhaça (TRV) é defiido como 12

o mais poderoso, ou seja, há um maior aumeto da probabilidade de rejeição da hipótese ula dado que ela é falsa do teste TRV com relação ao teste Wald; porém a estatística do teste TRV utilizada é qui-quadrado, portato requer um tamaho de amostra maior. O teste Wald (ou teste de Wald), para Hair et al. (29) é parecido com os valores F ou t para o teste de sigificâcia dos coeficietes a regressão liear. Quado os coeficietes são sigificates sua iterpretação é que as variáveis podem ser utilizadas para idetificar às relações que afetam as probabilidades previstas. A mesma iterpretação pode ser realizada para a costate. Desse modo, a hipótese ula a ser testada é que H H 1 : i : Segudo Corrar et al. (29), a fialidade deste teste é verificar o grau de sigificâcia para cada coeficiete da equação, ou seja, se cada parâmetro é sigificativamete diferete de zero, mais especificamete, verifica a hipótese de que um determiado coeficiete é igual à zero. Essa estatística pode ser calculada do seguite modo: W calc i [17] S em que β é defiido como sedo a estimativa do coeficiete de uma variável idepedete icluída o modelo; e S é o erro padrão que é defiido da seguite forma: S E 2 1 [18] em que é a matriz de iformação de Fisher. O p-valor é defiido como P( Z > W calc ), sedo que Z correspode a variável aleatória da distribuição ormal padrão. 13

6. Erro quadrático médio Segudo Lira (28), o erro quadrático médio avalia a qualidade do estimador ( ); ele evidecia duas compoetes de variabilidade dos dados, a variâcia do estimador (precisão) e o vício (acurácia). O erro quadrático médio de um estimador é defiido por Bolfarie e Sadoval (2) da seguite maeira: 2 EQM E. [19] Resolvedo a equação aterior: 2 EQM E E E 2 2 2 EQM E E E E E E, mas E E E E E E E E, portato 2 2 EQM E E E, [2] 2 ou seja, EQM Var E, em que E B, sedo B o vício do estimador. O EQM muitas vezes se mostra melhor do que a variâcia quado o vício ão é desprezível, pois é dado pela soma dessas duas estatísticas. De acordo com Lira (28), a raiz quadrada da variâcia é chamada de erro padrão, isto é, EP Var, quato meor o erro padrão, maior a precisão das estimativas. Uma medida muito utilizada a estatística é o coeficiete de variação, isto é, precisão relativa. Esta precisão é dada pelo iverso do coeficiete de variação 14

(CV), ou seja, quato maior CV, meor é a precisão, assim o coeficiete de variação é calculado por: CV Var EP E E Lira (28) complemeta que um estimador é dito ão viciado se E. Desta forma, o erro quadrático médio é a soma da variâcia e do quadrado do vício (viés), cujo é defiido como as estimativas dos parâmetros da equação ou a estimativa da probabilidade calculada, isto é, i ou p i. Etão, o EQM possui algumas propriedades ótimas dos estimadores como a ão tedeciosidade ( E ), cosistêcia ( lim E eficiêcia. e lim var ) e 15

CAPITULO 2 Fuções de ligação logit e probit a regressão biária via simulação de dados RESUMO: Neste estudo foi cosiderada a regressão biária por meio as fuções de ligação logit e probit, visado verificar a robustez das fuções de ligação diate da variação do tamaho da amostra. Assim, foram realizadas simulações com 5 repetições utilizado amostras de 1 diferetes tamahos, desde 1 a 91, com uma difereça etre as sucessivas amostras de 9 uidades. As medidas de desempeho percetual de covergêcia, erro quadrático médio da probabilidade geral, erro quadrático médio da probabilidade específica, teste Wald para os coeficietes, foram utilizadas para estabelecer uma recomedação para o uso das duas diferetes fuções de ligação quado os dados foram gerados com o uso do logit e probit e aalisados por ambas as fuções de ligação em cada tamaho de amostra. Cocluiu-se que o objetivo desse trabalho foi atigido ao estabelecer uma recomedação para o uso da fução de ligação logit para tamahos iferiores a 2 devido a maior taxa de covergêcia. Para maiores tamahos de amostras, utilizado as demais medidas de desempeho, tato o logit como o probit mostraram-se semelhates. Palavras Chave: tamaho de amostra, variável biária, distribuições logística e ormal. 1. Itrodução Muitos modelos são casos especiais de modelos lieares geeralizados que são compostos de três compoetes: um compoete aleatório (idetifica a distribuição de probabilidades da variável depedete); um compoete sistemático (modelo especifica a fução liear de variáveis explicativas que são usadas como preditor); e por uma fução de ligação (estabelece uma ligação etre os dois compoetes). Nos modelos lieares de regressão, a variável depedete é expressa como uma fução liear dos coeficietes de regressão. Há, o etato, outras classes de modelos em que é possível escrevê-los mediate uma trasformação as variáveis. 16

Quado a variável depedete é do tipo qualitativa dicotômica, há a ecessidade de abordar técicas de regressão biária para o tratameto dos dados, uma vez que os modelos lieares ão terão um bom ajuste. Além disso, um dos pricipais objetivos da regressão biária é estimar a probabilidade de ocorrêcia de determiado eveto, ou seja, os resultados da variável depedete permitiram a iterpretação em termos de probabilísticos. Para BENDER FILHO et al. (21), uma maeira adequada de utilizar modelo baseados em escolhas qualitativas é pelas probabilidades, desse modo existem fuções de ligações específicas como o logit e probit que com a utilização de fuções de distribuições podem realizar o cálculo, essas fuções possuem variável depedete biária. Mas quado essa variável assume mais que duas categorias, é importate utilizar outros métodos como o logit multimomial. De acordo com Barros (28) a escolha da fução de ligação logit assim como a probit é determiada por simples coveiêcia matemática e computacioal De acordo com a abordagem realizada por Cordeiro e Demétrio (27), a fução de ligação logit assim como a probit têm em comum o fato de a variável depedete ser uma variável qualitativa com dois possíveis valores; assim, as fuções de ligação logit e probit são dadas respectivamete pelos iversos das distribuições acumuladas logística e ormal. Devido à difereça as formas das curvas represetativas destas distribuições, é importate avaliar situações as quais uma ou outra descrevem com precisão a probabilidade de iteresse. O presete trabalho teve como pricipal objetivo verificar o efeito do tamaho da amostra sobre a qualidade de ajuste e da robustez das fuções de ligação logit e probit, quado a variável depedete dicotômica é origiada de uma variável latete que assume distribuições de probabilidade logística e ormal e; estabelecer recomedações para escolha das fuções de ligação logit e probit ao ajuste da regressão de uma variável depedete dicotômica em fução do tamaho da amostra. Etão, utilizado de 1 diferetes tamahos amostrais e diversas medidas de desempeho, foi possível verificar difereças etre as regressões que foram relevates, de forma foi estabelecida recomedações para o logit e probit. Assim, espera-se que esse trabalho possa cotribuir para a escolha dos tipos de fução de ligação em fução de diferetes tamahos de amostras. 17

2. Material e Métodos 2.1. Simulação de dados Para a realização da simulação, iicialmete foram defiidos o tamaho da amostra, qual o tipo de equação foi utilizada (quatidade de variáveis depedetes e parâmetros), os valores correspodetes da variável idepedete e os parâmetros da equação a ser utilizada. O valor assumido para a variável idepedete (x) foi defiido pela divisão do itervalo de 1 a 1 em 1 diferetes valores (1, 2, 3, 4, 5, 6, 7, 8, 9, 1), assim obteve-se 1 diferetes tamahos de amostra (), coforme pode ser observado a Tabela 1. Tabela 1 Tamahos das amostras iiciais, sequêcias da variável idepedete e ovos tamahos das amostras Divisão do itervalo (1 x 1) x Tamahos das amostras 1 1; 2; 3;...; 1 1 2 1; 1;5; 2;...; 1 19 3 1; 1;33; 1;67; 2;...; 1 28 4 1; 1;25; 1;5;...; 1 37 5 1;; 1;2; 1;4; 1;6;...; 1 46 6 1; 1;167; 1;33;...; 1 55 7 1; 1;14; 1;28;...; 1 64 8 1; 1;125; 1;25;...; 1 73 9 1; 1;11; 1;22;...;1 82 1 1; 1;1; 1;2; 1;3;...; 1 91 () Os tamahos de amostras foram determiados de forma que em tamahos pequeos, se espera a maior ocorrêcia de erros, a tamahos maiores em que há dimiuição desta mesma estatística. A equação cosiderada como referêcia para a realização do ajuste obtido utilizado as fuções de ligação logit e probit foi defiida somete com dois parâmetros: 18

logiti g pi 1xi probit g p x i i 1 i [1] em que esta equação foi cosiderada como verdadeira servido de comparação com as equações estimadas por meio dos dados simulados. O logit i (logit verdadeiro) e probit i (probit verdadeiro) foram defiidos de formas iguais cujos parâmetros foram fixados em: 5,5 e 1 1, para 1 x 1. Estes valores foram defiidos de forma que, tato para o logit como o probit os valores das probabilidades verdadeiras alcaçassem valores próximos de zero (,198694 para o logit e,3398 para o probit) e próximos de 1 (,989136 para o logit e,9999966 para o probit, respectivamete, para o meor e maior valor de X). Portato, mesmo partido de valores iguais para o logit e probit, as probabilidades, como foram calculadas por meio de diferetes fuções apresetaram resultados diferetes, sedo P(Y=1 X=x i ) = p i (Tabela 2). Tabela 2 Probabilidades de ocorrêcias de Y=1 X=x i calculadas por meio das fuções de ligação logit e probit X Logit Probit x 1 =1 Y~Ber(,198694) Y~Ber(,3398) x 2 =2 Y~Ber(,2931223) Y~Ber(,232629) x 3 =3 Y~Ber(,7585818) Y~Ber(,629665) x 4 =4 Y~Ber(,18242552) Y~Ber(,66872) x 5 =5 Y~Ber(,3775467) Y~Ber(,385375) x 6 =6 Y~Ber(,62245933) Y~Ber(,6914625) x 7 =7 Y~Ber(,81757448) Y~Ber(,9331928) x 8 =8 Y~Ber(,92414182) Y~Ber(,993793) x 9 =9 Y~Ber(,9768777) Y~Ber(,9997674) x 1 =1 Y~Ber(,989136) Y~Ber(,9999966) De posse dos valores verdadeiros do logit e probit, obtiveram-se as respectivas probabilidades de Y=1 X=x i de acordo expressões 2 e 3: 19

1 p P Y X x, para 1 x i 1 [2] 1 i i x e 1 i 1 1 p P Y X x x, para 1 x i 1 [3] i i 1 i A partir das probabilidades verdadeiras calculadas, foram realizadas 5 simulações, baseadas a distribuição de Beroulli, para os valores de Y, que assumiram valores iguais a zero ou um, detro de cada x i. Portato, tem-se: Y x i ~ Ber(p i ), para p i =p Li e p i = p Pi. [4] em que p Li e p Pi correspodem, respectivamete, às probabilidades das fuções de ligação logit e probit. Para cada tamaho amostral () foram obtidos valores observados de Y decorretes das distribuições de probabilidades das respectivas variáveis, modeladas pelas distribuições Logística e Normal, respectivamete. Isto implicou em obter um baco de dados iflueciado por dois fatores: tamaho amostral e tipo de fução de ligação (logit ou probit). A simulação foi realizada o software livre R (R Developmet Core Team, 212). De acordo com os valores simulados de Y, realizaram-se 5 aálises de regressão biária, ou seja, 5 repetições (simulações); para os 1 diferetes tamahos de baseado-se os 2 tipos de fuções de ligação, ou seja, foi realizado um total de 1. aálises, isto é, 5 simulações x1 tamahos de amostra x 2 fuções de ligação. Desse modo foram estabelecidas duas variáveis idepedetes: tamaho de amostra (=1, 19, 28,...,91) e tipo de fução de ligação (logit e probit), que foram resposáveis pela variação dos valores observados de y(,1). 2.2. Ajuste das equações de regressão biária De posse dos valores de Y, foram realizadas aálises de regressão biária a partir das fuções de ligação logit e probit para ambos os casos simulados. Portato, as aálises foram separadas em duas grades classes. A primeira utilizado os 2

valores de Y simulados a partir das probabilidades obtidas por meio de fução de ligação logit e a seguda por meio das probabilidades da fução de ligação probit. Isto implicou que a aálise de regressão biária realizada por meio da fução logit utilizou de dados que deveriam ser aalisados propriamete ditos pela fução de ligação a qual os dados tiveram origem, mas por outro lado, por meio do outro tipo de fução de ligação (probit). O mesmo acoteceu quado a aálise de regressão foi realizada por meio da fução de ligação probit (Figura 2). Número de amostras 5 Probabilidades geradas por: logit probit Aálises realizadas por: logit probit logit probit Figura 2 Esquema das aálises realizadas utilizado as fuções de ligação logit e probit para cada tamaho de amostra 2.3. Medidas de desempeho Após as obteções das 5 equações de regressão biária, baseadas as fuções de ligação logit e probit, para cada valor de, foram calculadas algumas medidas de desempeho: percetual de covergêcia, erro quadrático médio da probabilidade geral estimada em relação à verdadeira, erro quadrático médio da probabilidade específica estimada em relação à verdadeira e teste de Wald dos parâmetros. i) Percetual de covergêcia: é a medida o qual determiado método iterativo se aproxima de seu resultado, ou seja, é o percetual das 5 equações biárias em que o algoritmo de Newto-Raphso se aproximou do verdadeiro valor; 21

ii) Erro quadrático médio da probabilidade geral estimada em relação à verdadeira: o cálculo dessa estatística foi obtido com a utilização de todos os diferetes valores de x (1 x 1), ou seja, EQM p 5 i1 j1 p ij 5 p ij 2 [5] em que =1,19,28,...,91, é o valor assumido pela estatística, e β são os valores verdadeiros da costate (β =-5,5) e do coeficiete (β 1 =1); iii) Erro quadrático médio da probabilidade específica estimada em relação à verdadeira: seu cálculo foi obtido com a utilização dos íveis específicos de 1 x 1, ou seja, x iguais a 1, 2, 3, 4, 5, 6, 7, 8, 9 e1 EQM p x1 EQM p EQM p x 1 x 2 5 j1 p ij 5 j1 5 j1 p p 5 ij p ij 5 ij 5 p 2 p ij 2 ij, [6] 2, [7] ; [8] iv) Teste de Wald dos parâmetros: foi utilizado para verificar quais as porcetages de β, β 1 que foram sigificativamete diferete de zero, e também para verificar qual a porcetagem em que foi observado a costate e o coeficiete (ambos a mesma equação - β /β 1 ); Etão o teste verificou a sigificâcia das seguites hipóteses: H H : 5,5 : 5,5 1 H H : 1 1 : 1 1 1 v) Aálise de regressão: depois de obtidos os resultados de todas as medidas de desempeho utilizadas para a qualidade de ajuste das fuções de ligação, foram 22

realizadas aálises de regressão destas em fução do tamaho da amostra e do tipo de fução de ligação de forma que para a realização da regressão o logit foi fixado como sedo e o probit 1. Os coeficietes dos efeitos simples e de suas iterações foram avaliados pelo teste t de Studet a 5% de probabilidade, ou seja, foi verificada a 5% a iteração etre o tipo de fução de ligação e o tamaho da amostra, a ifluêcia do tamaho da amostra e o tipo de fução de ligação, isto é, md f f [9] 2 logit 1 2 3 4 2 probit 1 2 3 4 e md f f [1] em que md correspode às medidas de desempeho obtidas pela regressão, λ i e γ i são parâmetros da equação, ao tamaho da amostra, e f ao tipo de fução de ligação que este caso o logit assumiu o valor e o probit 1. 3. Resultados e Discussão 3.1. Percetual de Covergêcia O percetual de covergêcia do algoritmo (c) aumetou (P <,5) somete em fução do aumeto de, como segue, c = -38,8778 + 7,17778*, para 1 < 19 [11] c = 99,73, para 19 91 [12] ou seja, o tamaho da amostra ifluecia o percetual de covergêcia; a covergêcia também ão é iflueciada tato pelo tipo de fução de ligação quato pela iteração etre o tamaho da amostra e o tipo de fução de ligação, em ambos os cojutos de dados, o que também pode ser observado graficamete (Figura 3). A covergêcia ocorreu em todos os casos quado o tamaho da amostra foi maior que 45 para os dois tipos de fução de ligação (logit e probit). Para amostras meores que este tamaho, a covergêcia ão ocorreu quado houve uma sequêcia gerada pelo Y do tipo em há uma sucessão de zeros seguidos por us, ou seja, sequecias do tipo 11111, para =1, tais resultados se referem aos valores de X iguais a 1, 2, 3, 4, 5, 6, 7, 8, 9 e 1. 23

1 9 8 Covergêcia (%) 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Figura 3 Percetuais de covergêcias do logit e probit De acordo com Peg et al. (22) as estimativas dos coeficietes se toram istáveis para pequeos tamahos de amostras, o autor complemeta que a literatura ão oferece ormas especificas quato a determiação do tamaho que deva ser utilizado. Peixoto et al. (211) iforma que a aplicação do modelo de regressão liear segmetada permite descrever o comportameto da variabilidade etre as variáveis, ou seja, a regressão segmetada foi utilizada pois permitiu descrever a variabilidade medida pelo percetual de covergêcia ao logo dos 1 diferetes tamahos de amostras utilizados. Portato, quato à covergêcia, tato faz aalisar os dados oriudos teoricamete de uma fução de ligação logit ou probit, para amostras maiores que 2. Para amostras pequeas é recomedado o uso do logit devido à maior complexidade da fução de ligação probit. Para as amostras em que o algoritmo covergiu foi possível realizar as seguites estatísticas. 3.2. Erro quadrático médio da probabilidade geral O erro quadrático médio dimiuiu (P<,5) em fução do aumeto de, mais rapidamete para valores meores de e tededo a ser costate para os maiores valores. Ademais, ão foi verificada difereça (P>,5) etre as fuções 24

logit e probit. Os parâmetros as equações (Figura 4 a e b) foram sigificativos pelo teste t de Studet (P<,5)..2 a eqmp(logit).15.1.5 1 2 3 4 5 6 7 8 9 EQMprobit=,18984,41588* +,269*2 (R2 =,92) 1 91 eqmp(probit).2.15.1.5 b 1 2 3 4 5 6 7 8 9 EQMlogit=,213819,48261* +,316*2 1 91 Figura 4 Erro quadrático médio dos dados oriudos das fuções de ligação logit e probit, em fução do tamaho da amostra (). Segudo Miot (211), o erro é iversamete proporcioal ao tamaho da amostra, como pode ser observado a Figura 4, ou seja, à medida que o tamaho da amostra aumeta há uma dimiuição do erro quadrático médio tato do logit como do probit. Como ão foram observadas difereças sigificativas etre as duas fuções de ligação, podem-se ajustar regressões biárias, tato pela logit ou probit, ou seja, as duas fuções de ligação possuem comportameto semelhate quato ao erro quadrático médio em fução do tamaho da amostra. Segudo ODoell e Coor (1996), as estimativas de probabilidade do logit e probit são semelhates. Espahbodi e Espahbodi (23) reforça essa mesma teoria. Recomeda-se que a amostra possua o míimo 75 uidades, pois o erro quadrático médio dimiui itesamete até esse tamaho de amostra. De acordo com as duas equações de regressão, foi verificado que se, teoricamete, a fução é logit ou probit, podem-se estimá-las por meio das fuções 25

logit ou probit, sem ehum problema de ajuste. Isso implica que, a pricípio, ão é ecessário cohecer qual é a melhor fução para a obteção do meor erro quadrático médio. 3.3. Erro quadrático médio da probabilidade específica O erro quadrático médio fixados x=1,2,...1 para as fução de ligação logit e probit dimiui em fução do aumeto de (P<,5). Além disso, ão houve difereça etre os dois tipos de fuções de ligação empregadas (P>,5). Para os dados simulados a partir da fução de ligação logit fixados diferetes íveis de x, as equações de regressão ajustadas estão apresetadas a Tabela 3 e as curvas a Figura 5. Tabela 3 Equação de regressão e grau de ajustameto para o erro quadrático médio da probabilidade dos dados que foram origiados da fução de ligação logit fixados diferetes íveis de x Níveis de x Equação de Regressão* R 2 x=1 EQ M =,42 -,132* +,1* 2,64 x=2 EQ M =,693 -,216* +,2* 2,6 x=3 EQ M =,196 -,51* +,4* 2,57 x=4 EQ M =,286 -,59* +,4* 2,84 x=5 EQ M =,412 -,93* +,6* 2,6 x=6 EQ M =,499 -,19* +,7 * 2,75 x=7 EQ M =,318 -,826* +,6* 2,62 x=8 EQ M =,151 -,386* +,3* 2,58 x=9 EQ M =,432 -,15* +,1* 2,76 x=1 EQ M =,981 -,342* +,3* 2,51 *Sigificativo pelo teste t de Studet (P<,5) 26

eqm(logit_x=1).4.2. eqm(logit_x=2).4.2. 2 4 6 8 2 4 6 8 eqm(logit_x=3).4.2. eqm(logit_x=4).4.2. 2 4 6 8 2 4 6 8 27 eqm(logit_x=5).4.2. eqm(logit_x=6).4.2. 2 4 6 8 2 4 6 8 eqm(logit_x=7).4.2. eqm(logit_x=8).4.2. 2 4 6 8 2 4 6 8 eqm(logit_x=9).4.2. 2 4 6 8.4.2. 2 4 6 Figura 5 Erro quadrático médio da probabilidade dos dados oriudos do logit fixados x = 1,...,1 eqm(logit_x=1) 8

Para os dados simulados a partir da fução de ligação probit fixados diferetes íveis de x, as equações de regressão ajustadas estão apresetadas a Tabela 4 e as curvas a Figura 6. Tabela 4 Equação de regressão e grau de ajustameto para o erro quadrático médio da probabilidade dos dados que foram origiados da fução de ligação probit fixados diferetes íveis de x Variável Equação de Regressão R 2 x=1 EQ M =,134 -,4 *,29 x=2 EQ M =,835 -,3 *,39 x=3 EQ M =,715 -,244* +,2* 2,42 x=4 EQ M =,32 -,961* +,8 * 2,71 x=5 EQ M =,491 -,833* +,5* 2,8 x=6 EQ M =,451 -,571* +,2* 2,54 x=7 EQ M =,337 -,16* +,8* 2,44 x=8 EQ M =,564 -,172* +,1* 2,47 x=9 EQ M =,564 -,18 *,75 x=1 EQ M =,16 -,6 *,69 *Sigificativo pelo teste t de Studet (P<,5) 28