ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE

Tamanho: px
Começar a partir da página:

Download "ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE"

Transcrição

1 ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE Dssertação apresentada à Unversdade Federal de Vçosa, como parte das exgêncas do Programa de Pós-Graduação em Estatístca Aplcada e Bometra, para obtenção do título de Magster Scentae. VIÇOSA MINAS GERAIS BRASIL 2010

2

3

4 Aos meus pas Expedto Campos de Souza e Ana Balbna de Olvera Souza, pelos esforços jamas negados, pelos exemplos sempre oferecdos e sem os quas esta conqusta não sera possível. À mnha esposa Andrea Fernandes Texera pela compreensão de ausênca como pa e mardo. A mnha flha Ana Beatrz Texera Souza, por dexar tudo com mas sentdo em mnha vda. Aos rmãos Adelson e Andréa. Dedco

5 MENSAGEM Só exste uma cosa melhor do que fazer novos amgos, conservar os velhos Elmer G. Letterman

6 AGRADECIMENTOS Deus, por ter dado saúde, dsposção e sempre ter me lumnado dando forças para vencer e chegar até este momento. À Unversdade Federal de Vçosa, por ntermédo do Programa de Pós Graduação de Estatístca Aplcada e Bometra, pela oportundade. À Fundação de Amparo a Pesqusa do Estado de Mnas Geras FAPEMIG pelo apoo ao desenvolvmento do projeto de pesqusa CAG - PPM A todos os professores do Departamento de Estatístca da Unversdade Federal de Vçosa que contrbuíram para que eu me tornasse uma pessoa melhor em mnha profssão. Ao secretáro Altno pela efcênca sempre demonstrada e, sobretudo, pelo bom humor nesgotável em todos os momentos. A secretára do DET-UFV Anta, pela presteza e smpata. Aos professores Enrco Antono Colosmo e Sebastão Martns Flho pelo apoo durante o desenvolvmento deste trabalho, e pelos bons ensnamentos durante este tempo que trabalhamos juntos. Aos colegas do mestrado UFV, em especal a todos do semestre 2008/01. Ao professor Fabyano, pelo apoo, sabedora enquanto professor e generosdade como ser humano. A todos que de alguma forma contrbuíram para a realzação deste trabalho. v

7 BIOGRAFIA ANDRÉ OLIVEIRA SOUZA, flho de Ana Balbna Olvera Souza e Expedto Campos de Souza, nasceu em 30 de setembro de 1978, em Senador Frmno MG. Em janero de 2000 graduou-se em lcencatura plena em Matemátca pela Unversdade Presdente Antono Carlos (UNIPAC). Em 2002 concluu o curso de especalzação em Matemátca, pela Unversdade Presdente Antono Carlos (UNIPAC) com a monografa nttulada: Dfculdades no ensno-aprendzagem da matemátca e propostas de solução. Em março de 2008, ncou o curso de Mestrado em Estatístca Aplcada e Bometra, na Unversdade Federal de Vçosa (UFV) tendo defenddo a dssertação em 25 de feverero de v

8 ÍNDICE LISTA DE FIGURAS... v LISTA DE TABELAS... x RESUMO... x ABSTRACT... x INTRODUÇÃO...1 CAPÍTULO 1 REGRESSÃO LOGÍSTICA Motvação Modelo de regressão logístca Regressão logístca smples Transformação logt Estmação dos parâmetros Regressão logístca múltpla Estmação dos parâmetros Estatístca devance Testes Estatístcos CAPÍTULO 2 EXISTÊNCIA DE ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA EM MODELOS DE REGRESSÃO LOGÍSTICA Classfcações de um conjunto de dados logístcos Separação completa Separação quase completa Superposção (overlap) v

9 2.2 Estmadores de máxma verossmlhança O método de máxma verossmlhança penalzada Testes Estatístcos sob separabldade...17 CAPÍTULO 3 PROPOSTA DE AVALIAÇÃO DOS TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB CONDIÇÃO DE SEPARABILIDADE Modelo utlzado na smulação dos dados bnáros Análses dos dados smulados e crtéros de comparação Resultados e dscussão CAPÍTULO 4 APLICAÇÃO Pacentes submetdos a cranotoma Germnação de sementes de Adenanthera pavonna L CONCLUSÕES...36 REFERÊNCIAS BIBLIOGRÁFICAS...37 APÊNDICE A APÊNDICE B...48 v

10 LISTA DE FIGURAS Fgura 2.1 Confgurações de dados logístcos segundo Albert e Anderson (1984), separação completa (a), quase-completa (b) e overlap (c) Fgura 2.2 Ilustração de uma função de verossmlhança, com estmatvas fntas (a) e nfntas (b) Fgura 3.1 Probabldade de sucesso obtdas ao se varar β 1 e fxar β 0 = Fgura 3.2 Curvas da probabldade de sucesso obtdas ao se varar β 0 e β Fgura 3.3 Ilustração das curvas de poder para os testes A e B Fgura 3.4 Comportamento assntótco dos testes C e D Fgura 3.5 Função poder empírca dos testes da razão de verossmlhanças(trv) (a) e de Wald (b) para amostras de tamanho η= Fgura 3.6 Função poder empírca dos testes da razão de verossmlhanças(trv) (a) e de Wald (b) para amostras de tamanho η= Fgura 3.7 Poder do TRV e Wald para amostras de tamanho η = 10 e β 0 = Fgura 3.8 Poder do TRV e Wald para amostras de tamanho η = 400 e β 0 = Fgura 3.9 Probabldade do erro tpo I com varações de 0 β e tamanhos de amostras, para as estatístcas TRV (a) e de Wald (b) v

11 LISTA DE TABELAS Tabela 3.1 Testes estatístcos sob separabldade Tabela 3.2 Valores de β 0, β 1 e η utlzados na smulação Tabela 4.1 Conjunto de dados dos pacentes submetdos à cranotoma Tabela 4.2 Dstrbução dos pacentes segundo a gravdade do caso e a presença de menngte...30 Tabela 4.3 Estmatvas de máxma verossmlhança genuína para os coefcente do modelo de regressão logístca para os dados de cranotoma...30 Tabela 4.4 Teste da razão de verossmlhanças (TRV) para as estmatvas de máxma verossmlhança genuína...30 Tabela Estmatvas de máxma verossmlhança penalzada para os coefcentes do modelo de regressão logístca para os dados de cranotoma...31 Tabela 4.6 Testes ndvduas de Wald para as estmatvas de máxma verossmlhança penalzada...31 Tabela 4.7 Conjunto de dados Adenanthera pavonna L Tabela 4.8 Número de sementes germnadas de Adenanthera pavonna L por tratamento...33 Tabela 4.9 Estmatvas de máxma verossmlhança genuína para os coefcentes do modelo de regressão logístca para os dados de germnação de Adenanthera pavonna L Tabela 4.10 Teste da razão de verossmlhanças (TRV) para verfcar o efeto da nteração entre X1 e X Tabela Teste da razão de verossmlhanças (TRV) para verfcar o efeto de X1, X2 e X1+X Tabela 4.12 Estmatvas de máxma verossmlhança penalzada para os coefcentes do modelo de regressão logístca para os dados de germnação de Adenanthera pavonna L Tabela 4.13 Teste de Wald para verfcar o efeto da nteração entre X1 e X Tabela 4.14 Teste de Wald para as estmatvas de máxma verossmlhança penalzada35 x

12 RESUMO SOUZA, André Olvera, M.Sc., Unversdade Federal de Vçosa, feverero de Testes estatístcos em regressão logístca sob a condção de separabldade. Orentador: Sebastão Martns Flho. Co-Orentadores: Enrco Antono Colosmo e Fabyano Fonseca e Slva. A regressão logístca é o método estatístco usual de análse utlzado quando o objetvo é verfcar a relação entre uma varável resposta dcotômca e varáves explcatvas de nteresse. Usualmente, os parâmetros deste modelo são estmados pelo método de máxma verossmlhança genuína, e testes sobre estes parâmetros são construídos consderando as dstrbuções aproxmadas dos estmadores. Isto sgnfca que amostras grandes tornam-se necessáras para obter resultados mas confáves. Em estudos envolvendo dados bnáros, é frequente a presença de uma varável resposta cujo sucesso é pouco provável, ou seja, tem-se um evento raro, o que pode gerar uma amostra de dados esparsos. Nestes casos, dz-se que os dados podem estar sob a condção de separabldade, e esta stuação está frequentemente assocada à presença de uma covarável categórca, podendo os estmadores de máxma verossmlhança, para pelo menos um parâmetro, não exstr. Na stuação de separabldade recomenda-se utlzar o método de máxma verossmlhança penalzada proposto por Frth (1993). O objetvo prncpal deste trabalho fo verfcar por meo de smulação Monte Carlo os poderes dos testes da razão de verossmlhanças (TRV) e de Wald obtdo va máxma verossmlhança penalzada na condção de separabldade. A metodologa apresentada neste trabalho fo aplcada a dos conjuntos de dados reas. A smulação Monte Carlo com uma varável explcatva no modelo possbltou obter ndcatvos que o TRV tem maor poder que o teste de Wald. x

13 ABSTRACT SOUZA, André Olvera, M.Sc., Unversdade Federal de Vçosa, February, Statstcal Tests n logstc regresson under separablty condton. Advser: Sebastão Martns Flho. Co-Advsers: Enrco Antono Colosmo and Fabyano Fonseca e Slva. Logstc regresson s the statstcal method of analyss used when the objectve s to verfy the relatonshp between one dchotomc response varable and explcatve varables of nterest. Usually, the model parameters are estmated through the genune maxmum lkelhood method, and tests about these parameters are bult assumng approxmated dstrbutons for the estmators. Ths means that large samples become necessary to obtan trustable results. In studes nvolvng bnary data s common the occurrence of one response varable whose success has low probablty, n other words, a rare event that can generate a sparse data sample. In such cases, the data are under separablty condton, and ths stuaton s frequently assocated to the presence of one categorcal co-varable, what means that the maxmum lkelhood estmators do not exst to one parameter at least. In the separablty condton t s recommended to use the Penalzed Maxmum Lkelhood method, proposed by Frth (1993). The man objectve of ths study was to verfy the powers of the Lkelhood Rato Test (LRT) and Wald Test obtaned through PML under separablty condton by Monte Carlo smulaton. The presented methodology has been appled to two real data sets. Monte Carlo smulaton wth one explcatve varable n the model made possble to obtan ndcatves that the LRT s most powerful than the Wald test. x

14 INTRODUÇÃO Em mutos estudos nas dversas áreas da cênca, a varável dependente ou varável resposta, apresenta apenas duas categoras, como exemplo o resultado de expermentos com germnação de sementes, nos quas tem-se como resposta o sm, se germnou, ou não, caso contráro. Tas respostas dcotômcas podem ser codfcadas numercamente como 1 e 0, respectvamente correspondendo assm a um conjunto de dados bnáros. Quando se tem o nteresse na avalação da nfluênca de fatores sobre uma resposta dcotômca, a regressão logístca é o método usualmente utlzado (Hosmer e Lemeshow, 1989). Geralmente os testes de hpóteses para os parâmetros do modelo logístco são fundamentados nas estatístcas de Wald e da razão de verossmlhanças, cujos poderes podem dferr em stuações envolvendo dferentes confgurações de dados amostras. Uma stuação na qual uma comparação se faz necessára, devdo a escassez de trabalhos na lteratura especalzada, é a da separabldade esta ocorre quando, as respostas sm e não podem ser perfetamente separadas por um fator ou por combnações lneares não-trvas de város fatores. A probabldade de ocorrênca destas stuações depende do tamanho da amostra e do número de fatores dcotômcos de nteresse (Henze e Schemper, 2002). Inferêncas para os coefcentes do modelo logístco não podem ser fundamentadas na estatístca de Wald, quando o método de estmação é o de máxma verossmlhança genuína, pos neste caso, tanto os estmadores quanto o erro padrão de pelo menos um dos coefcentes poderá r para o nfnto. Este fato mplca em ntervalo de confança (IC) com ampltude nfnta (Henze e Schemper, 2002), tornando o teste de Wald não conclusvo. Portando, nesta stuação apenas o teste da razão de verossmlhanças poderá ser utlzado. Por outro lado, sob a confguração de separabldade quando o método de estmação utlzado for o de máxma verossmlhança penalzada (Frth, 1993), nferêncas para os coefcentes do modelo podem ser fundamentadas na estatístca de Wald. Dante do assunto exposto o objetvo deste trabalho é nvestgar o poder do TRV, sob separabldade, quando se utlza o método de estmação de máxma verossmlhança genuína, e também, o poder do teste de Wald quando se trabalha com o método de máxma verossmlhança penalzada proposta por Frth (1993). Os resultados desta nvestgação serão utlzados em dos conjuntos de dados reas sob confguração de separabldade. Em um a resposta de nteresse fo a ocorrênca de 1

15 menngte durante os prmeros 30 das após o pacente ser submetdo a cranotoma (Colosmo et al., 1995), no outro fo avalada a germnação de sementes de Adenanthera pavonna L. Este trabalho está organzado da segunte forma: No Capítulo 1 estão apresentados a motvação deste estudo, o modelo de regressão logístca e nferênca do modelo. No Capítulo 2 esta dscutda a exstênca dos estmadores de máxma verossmlhança, a classfcação dos dados logístcos, a estmação e a nferênca obtda pelos métodos de máxma verossmlhança genuína e também o método de máxma verossmlhança penalzada. No Capítulo 3 encontra-se descrto todo o processo e estrutura da smulação de dados. No Capítulo 4 encontram-se aplcações dos testes fundamentados em resultados obtdos pela nvestgação realzada neste trabalho. E ao fnal são apresentadas as conclusões desta dssertação. 2

16 Capítulo 1 Regressão logístca Neste capítulo é apresentada uma motvação do trabalho e uma breve revsão do modelo de regressão logístca e nferêncas para a mesma. 1.1 Motvação Ao propor o modelo logístco para modelar dados provenentes de expermentos com gemnação de sementes, no qual alguns efetos dos fatores ou efetos de combnações de fatores a gemnação é nula, estmatvas obtdas por máxma verossmlhança genuína para estmar o efeto de tas tratamentos são mprecsas e dvergem para ±. Para este caso uma alternatva, proposta por Frth (1995), é a modfcação do método de estmação no qual garante estmatvas fntas e precsas para os coefcentes do modelo. A condção de separabldade fo apresentada por Albert e Anderson (1984) em que os mesmos estabeleceram a fundamentação teórca para a análse deste fenômeno e, também Henze e Schemper (2002) sugerram algumas abordagens, para a classfcação de dados logístco já dscutdas por Albert e Anderson (1984). Neste trabalho serão modelados dos conjuntos de dados reas. O prmero é conhecdo da lteratura, em que pacentes foram submetdos a cranotoma (Colosmo et al., 1995). O segundo conjunto de dados é orundo de um expermento com germnação de sementes de Adenanthera pavonna L realzado no laboratóro de sementes florestas da Unversdade Federal de Vçosa em Modelo de Regressão Logístca Um dos casos partculares dos modelos lneares generalzados (Dobson, 1990; Paula, 2004) são os modelos para varáves que apresentam apenas duas categoras ou que de alguma forma foram dcotomzadas assumndo os valores 0 ou 1. São as chamadas varáves dummy (ou ndcadoras). Um dos mas mportantes modelos é o de regressão logístca, baseado na transformação logt para proporção. Varáves com duas categoras que podem ser classfcadas em sucesso ou fracasso representando as possbldades de respostas como, por exemplo, (1; 0), são caracterzadas pela dstrbução de Bernoull. Comumente é chamado de sucesso o resultado mas mportante da resposta ou aquele que se pretende relaconar com outras varáves de 3

17 nteresse. A dstrbução de Bernoull para a varável aleatóra bnára Y com parâmetro π especfca as probabldades como: Por defnção, PY ( = 1) = π e PY ( = 0) = 1 π EY ( ) = 1π + 0(1 π) = π que é a proporção de respostas em que Y = 1 e sendo, [ ] 2 VarY ( ) EY ( ) EY ( ) 1 π 0 (1 π) π = = +. = π (1 π ) A função de probabldade de uma varável aleatóra Bernoull é, y f( Y, π ) = π (1 π) A regressão logístca é conhecda desde os anos 50, entretanto, tornou se mas usual através de Cox (1970) e de Hosmer e Lemeshow (1989). Aspectos teórcos do modelo de regressão logístca são amplamente dscutdos na lteratura, destacando-se Cox e Snell (1989), Hosmer e Lemeshow (1989), Agrest (1990), Klenbaum (1994) entre outros. y Regressão logístca smples Os métodos de regressão têm como objetvo descrever as relações entre a varável resposta (Y) e a varável explcatva (X). Na regressão logístca, a varável resposta (Y) é dcotômca, sto é, atrbu-se o valor 1 (um) para o evento de nteresse sucesso e o valor (0) zero para o acontecmento complementar fracasso. Com probabldade de sucesso π ( x ) = PY [ = 1 X ] em que X é a varável explcatva assocada a -ésma resposta Y. Consdera-se uma amostra de respostas bnáras, em que ( Y 1, Y 2, Y 3,..., Y n ) são varáves aleatóras ndependentes com dstrbução Bernoull, com probabldade de T sucesso π, sto é, Y Benoull( π ) e denota-se por x = (1, x ) a -ésma lnha da matrz X em que =1,2,3,...n. A probabldade de sucesso do modelo logístco smples é defnda como: exp( β0 + β1x ) π = π( x) = P( Y = 1 X = x) =, (1.1) 1 + exp( β + β x ) e a probabldade de fracasso, 0 1 4

18 1 1- π = PY ( = 0 X = x) = 1 + exp( β + β x ), (1.2) 0 1 em que β 0 e β 1 são os parâmetros desconhecdos. Em problemas de regressão o que se modela é o valor médo da varável resposta dado os valores das varáves ndependentes. Esta quantdade é chamada de méda condconal, denotada por EY ( X= x), em que Y é a varável resposta e x, os valores das varáves ndependentes. Devdo a natureza da varável resposta, a ampltude da méda condconal vara no ntervalo [0,1], ou seja, 0 EY ( X= x) 1 e usando a defnção de varáves aleatóras dscreta, tem-se: E( Y X = x ) = 1 P( Y = 1 X = x ) + 0 P( Y = 0 X = x ) = P[ Y = 1 X = x ]. A varável resposta Y dado x é modelada por Y = π + ε. Como a quantdade ε pode assumr somente um de dos valores possíves, sto é, ε = 1 π para Y = 1 ou ε = π para Y = 0, segue que ε tem dstrbução com méda zero e varânca dada por π (1 π ) (Hosmer e Lemeshow, 1989), sto é, a dstrbução condconal da varável resposta segue uma dstrbução bnomal com probabldade dada pela méda condconal π Transformação logt Para evtar o problema restrtvo de que os valores de probabldade sejam números no ntervalo [0,1], a função logístca pode ser lnearzada pela transformação chamada logt. A transformação logt que é central para estudo de regressão logístca é defnda π como gx ( ) = ln, logo de (1.1) e (1.2) tem-se, 1 π gx ( ) = ln exp( β0 + β1x ) 1+ exp( β + β x ) 0 1 exp( β0 + β1x ) exp( β0 + β1x ) exp( β0 + β1x ) 1+ exp( β0 + β1x ) = l n, 1 1+ exp( β0 + β1x ) gx ( ) = ln(exp( β0 + β1x )) = β0 + β1x. (1.3) 5

19 A função gx ( ) apresenta as seguntes propredades: é lnear em seus parâmetros, contínua, vara no ntervalo (, + ) com correspondentes no ntervalo [0,1] para π. No contexto de modelos lneares generalzados, uma função monótona e dervável que relacona a méda ao predtor lnear é denomnada de função de lgação, assm π gx ( ) = ln 1 π é a função de lgação canônca para o modelo bnomal Estmação dos parâmetros Supondo que ( x, y ) seja uma amostra ndependente com n pares de observações, y representa o valor da varável dcotômca e x o valor da varável ndependente da - ésma observação em que =1, 2,3,...,n. Para o ajuste do modelo de regressão logístca smples, segundo a equação (1.1), é necessáro estmar os parâmetros desconhecdos; β 0 e β 1. O método mas usado para estmar esses parâmetros consderando uma regressão lnear clássca é o de mínmos quadrados. Neste método, a escolha de β 0 e β 1 é dada pelos valores que mnmzam a soma de quadrados dos desvos para os valores observados ( y ) em relação ao valor predto ( y ˆ ) baseado no modelo, neste caso, a matrz de projeção H da solução de mínmos quadrados é: T 1 H = X( X X) X, em que X a matrz de dados, no entanto, no modelo de regressão logístca, a varânca Var( ε ) = π (1 π ) não é constante, sendo utlzada a defnção de mínmos quadrados ponderados, defnndo a matrz de projeção para o modelo logístco como: em que, Q dag[ π (1 π )] =, =1,...,n T 1 T 2 H = Q X( X QX) X Q, Usualmente o método de máxma verossmlhança é utlzado para estmar os parâmetros no caso de modelo de regressão logístca. Como as observações são ndependentes, a função de dstrbução de probabldade conjunta de y1, y2,..., yn será: n n y 1 y f( y, π) = π (1 π) = 1 = 1, [0,1] T y. (1.4) 6

20 Então a função de verossmlhança é dada por: β) n y 1 y π (1 π), β 2. (1.5) = 1 L( = O método de máxma verossmlhança consste em estmar β consderando o valor deste parâmetro que maxmza L( β ). Aplcando o logartmo em L( β ), a expressão é defnda como: l( ) ln ( ) ln (1 ) β = [ L β ] = n y π π 1 y = 1 = = n = 1 n [y ln( π ) +(1-y )ln(1- π )] [y ln( π ) +ln(1- π )-y ln(1- π )] = 1 n π [yln +ln(1- π )]. (1.6) = 1 1-π = Substtundo em (1.6) as equações (1.2) e (1.3), tem-se: n 1 l( β) = y ( β0 + β1x )+ln = 1 1+exp( β0 + β1x ) n [ y ( β0 β1x )+ln(1)-ln(1+exp( β0 β1x )] = + + = 1 n [ y ( β0 β1x )+ln(1)-ln(1+exp( β0 β1x )] = + + = 1 n [ β0 β1 β0 β1x ] = y ( + x )-ln(1+exp( + ). (1.7) = 1 Para encontrar o valor de β que maxmza l( β ), derva se l( β ) em relação a cada parâmetro ( β0, β 1), obtendo-se duas equações. 7

21 n l( β ) 1 = y exp( β0 + β1x ) β0 = 1 1+exp( β0 + β1x ) n l( β ) 1 = yx exp( β0 + β1x) x, β1 = 1 1+exp( β0 + β1x ) que, gualando a zero geram o sstema de equações: n = 1 n = 1 ( y π ) = 0 (1.8) ( y π ) x = 0 (1.9) exp( β0 + β1x ) em que =1,2,3,...,n e π =. 1 + exp( β + β x ) 0 1 Como as equações (1.8) e (1.9) são não lneares em β 0 e β 1, são necessáros métodos teratvos para resolução, e estes estão mplementados em város softwares estatístcos Regressão Logístca múltpla Hosmer e Lemeshow (1989) generalzaram o modelo de regressão para o caso de uma ou mas varáves ndependentes. Seja um conjunto de p varáves ndependentes, denotado por x = ( x, x, x,..., x ), o vetor da -ésma lnha da matrz (X) das varáves explcatvas, T p em que cada elemento da matrz corresponde ao j-ésmo componente ( x j ), em que =1, 2, 3,..., n e j =1, 2, 3,..., p, com x 0 = 1. Denota-se por β = ( β0, β1, β2, β3,..., β ) T p, o vetor de parâmetros desconhecdos e β j é o j-ésmo parâmetro assocado à varável explcatva x j. No modelo de regressão logístca múltpla a probabldade de sucesso é dada por: exp( β0 + β1x 1+ β βpxp) π = π( x) = P( Y = 1 X = x) =, (1.10) 1 + exp( β + β x + β β x ) T exp( x β ) π ( x) = P( Y = 1 X = x) = T 1 + exp( x β ) E a probabldade de fracasso é dada por, p p 8

22 1 1 π = 1 π( x) = P( Y = 0 X = x) =, (1.11) 1 + exp( β + β x + β β x ) 1 1 π ( x) = P( Y = 0 X = x) = T 1 + exp( x β ) p p O logt para o modelo de regressão lnear múltpla é dado pela equação: p π T gx ( ) = ln = x β = β0 + β jxj 1 (1.12) π j= 1 Assm o logartmo da função verossmlhança pode ser escrto: n T T l( β ) = yx β ln(1 + exp( x β). (1.13) = Estmação dos parâmetros Para estmar os parâmetros da regressão logístca múltpla por máxma verossmlhança encontra-se o valor de β que maxmza l ( β ), o que exge um processo teratvo e que faz necessáro dervar l ( β ) em relação a cada parâmetro; dessa forma, o vetor score; n T l( β ) exp( x β ) = yx j x T j β j 1+ exp( x β) = 1 n [ y π ] = = 1 x j, (1.14) ( β) = T T π T = T ( π T ), (1.15) U X y X X y T em que π = ( π1,..., π n ). A matrz de nformação de Fscher é dada por: ( β ) 2 l T I( β ) = E = X QX T β β (1.16) em que, Q= dag[ π (1 π )], =1,...,n e X a matrz de dados, e sua nversa I ( β ) 1, é a matrz de varânca e covarânca das estmatvas de máxma verossmlhança dos parâmetros. 9

23 A solução para as equações (1.14) é obtda por método teratvo de Newton Raphson. O conjunto de equações teratvas é dado por: 1 ( ) ( ) 1 ( π ) ( t+ 1) ( t) ( t) ( t) β = β + I β U β ; t = 1,2,3... (1.17) = β + X Q X X y () t T () t T () t em que β t e t 1 β + são vetores de parâmetros estmados nos passos t e t + 1, respectvamente. Para o valor ncal, é usualmente tomado, os coefcentes guas a zero. Estes valores ncas são dstrbuídos no prmero membro da equação (1.17), que dará o (1) resultado para a prmera teração, β. Os valores então são novamente dstrbuídos no prmero membro da equação (1.17), U ( β ) e I ( β ) são recalculados, encontrando (2) β. Esse processo é repetdo, até que a máxma mudança em cada parâmetro estmado do próxmo passo seja menor que um crtéro. Se o valor absoluto do corrente parâmetro estmado β ( t+ 1) () t β é menor ou gual a 0,01, o crtéro mas usual para convergênca é t β < 0, Se o parâmetro estmado for maor que 0,01, assume se o segunte crtéro β ( t+ 1) t β t β < 0,001, conforme (Allson 1999). 1.3 Estatístca devance O processo de ajuste de um modelo consste em propor ao mesmo um pequeno número de parâmetros, de tal forma que resuma toda nformação da amostra. Dado um conjunto de n observações, um modelo de até n parâmetros pode ser ajustado, sendo denomnado modelo saturado, sendo que este ndca toda varação ao componente sstemátco e reproduz exatamente os dados. Por outro lado, o modelo mas smples tem somente um parâmetro, β 0, sendo denomnado modelo nulo, e ndcando toda varação ao componente aleatóro. Na prátca, o modelo nulo é em geral muto smples e o modelo saturado não é nformatvo, uma vez que não resume os dados, somente os reproduz. Entretanto, o modelo saturado serve como base para medr a dscrepânca de um modelo ntermedáro com p parâmetros em que p< n. Exstem mutas estatístcas para medr esta dscrepânca, das quas a mas utlzada está baseada na função de verossmlhança, proposta por Nelder e Wedderburn (1972), 10

24 com o nome devance. Os autores comparam o valor da função de verossmlhança, para o modelo proposto com p + 1 parâmetros L ( β, β,... β ) ao seu valor no modelo saturado (( ( 1, 2,... n) )) ( 0 1 p ) Ly y y. Para esta comparação é convenente utlzar menos duas vezes o logartmo do quocente destes máxmos. Assm, a devance é defnda como: L( β 0, β1,... β ) p G = 2ln, (1.18) Ly ( 1, y2,... yn) equação na qual verfca-se a utlzação de um teste da razão de verossmlhanças generalzado. No modelo de regressão logístca, consderando o modelo com as proporções estmadas ˆ π, temos que a devance pode ser escrta como: n [ ˆ ˆ π π ] G = 2 y ln( ) + (1 y )ln(1 ) y ln( y ) + (1 y )ln(1 y ) = 1 n ˆ π 1 ˆ π = 2 yln + (1 y)ln = 1 y 1 y n y 1 y = 2 yln + (1 y)ln (1.19) = 1 ˆ π 1 ˆ π A devance é sempre postva e quanto menor seu valor, melhor é o ajuste do modelo. 1.4 Testes Estatístcos Geralmente não é possível encontrar dstrbuções exatas para os estmadores, assm sendo trabalha-se com resultados assntótcos consderando-se que o modelo escolhdo rá satsfazer as condções de regulardades. Cox e Hnkley (1986) demonstram que, em problemas regulares, a função escore U ( β ) l( β ) = tem valor esperado gual a zero e a estrutura de covarânca é gual à matrz β de nformação de Fscher dada por: ( β ) 2 l I( β ) = E T β β. Assm a dstrbução assntótca dos ˆβ é 11

25 1 β N (, ( ) ) p β I β (1.20) Os métodos de nferênca são baseados na teora de máxma verossmlhança. Conforme esta teora exstem três estatístcas para testar hpóteses relaconadas aos parâmetros (Razão de verossmlhança, de Wald e Escore), que são deduzdas de dstrbuções assntótcas de funções adequadas dos parâmetros (Demétros, 2002). As duas prmeras estatístcas estão defndas abaxo: 1. Estatístca da razão de verossmlhanças: O teste da razão de verossmlhanças é obtdo por meo da comparação entre o modelo sob, Ho: β = β0, e o rrestrto. A estatístca deste teste, sob Ho, tem aproxmadamente uma dstrbução de qu-quadrado com número de graus de lberdade gual à dferença do número de parâmetros dos modelos que estão sendo comparados. G L( ˆ β ) 2ln, (1.21) L( ˆ β ) 0 = 2. A estatístca de Wald: O teste de Wald é baseado na dstrbução assntótca de ˆβ e é uma generalzação do teste t de Student (Wald, 1943). Sob a hpótese Ho: β = β0 a estatístca do teste é em que dada por: T W = ( β β ) ( 0 I( β) β β0) (1.22) I( β ) é a matrz de nformação de Fscher avalada em β, em que sob Ho, W tem aproxmadamente uma dstrbução de qu-quadrado com graus de lberdade gual ao número parâmetros testados. 12

26 Capítulo 2 Exstênca de estmadores de máxma verossmlhança modelos de regressão logístca Neste capítulo é apresentado os concetos algébrcos e empírcos de separação completa, separação quase-completa e superposção (overlap) utlzada para classfcar dados logístcos. O método de estmação de máxma verossmlhança penalzada, proposto por Frth (1993), é apresentado para os parâmetros do modelo logístcos. Também são dscutdos os testes de Wald e o da razão de verossmlhanças para nferênca dos parâmetros em cada um dos métodos de estmação. 2.1 Classfcações de um conjunto de dados logístcos Segundo Albert e Anderson (1984) as confgurações dos dados logístcos podem ser classfcadas em três categoras mutuamente exclusvas e exaustvas: separação completa; separação quase completa e superposção (casos comuns, overlap). A separabldade ocorre quando as respostas sm e não podem ser perfetamente separadas por uma covarável de nteresse ou por combnações lneares não-trvas de covaráves. A segur apresenta-se formalmente esta classfcação. Para sto, serão consderados as confgurações possíves dos n valores amostras no espaço de observação destes valores defn-se cada uma das categoras ctadas. p e a partr Separação Completa Ocorre separação completa quando, baseada na nformação de uma covarável ou combnação de covaráves, pode-se predzer corretamente o valor de uma varável de nteresse. Isto mplca na exstênca de um vetor p+ 1 β pelo qual todos os valores amostras podem ser perfetamente classfcados entre Y=1 ou Y=0, tal que todo j=0,1, tem-se em que X β > 0, E, 0 X β < 0, E, 1 E j, E j é o conjunto de lnhas dentfcadas da matrz X com valores de Y= j. A Fgura 2.1 (a) lustra esta categora de separação para 2. 13

27 2.1.2 Separação Quase Completa p+ 1 Ocorre separação quase-completa quando, baseado na nformação de uma covarável ou combnação de covaráves, pode-se predzer perfetamente os valores de pelo menos um grupo da varável de nteresse, ou seja, Y=0 ou Y=1. A separação quasecompleta mplca na exstênca de vetor β tal que, para todo E j, j=0,1 X β 0, E, 0 X β 0, E, com gualdade para, pelo menos, um, valor de. A Fgura 2.1 (b) lustra esta categora de separação para Superposção (overlap) Se os dados não estão nas duas categoras anterores, necessaramente, eles estão na categora de superposção. A Fgura 2.1(c) lustra esta categora para 2. ( ) ( ) ( ) Fgura 2.1 Confgurações de dados logístcos segundo Albert e Anderson (1984), separação completa (a), quase-completa (b) e overlap (c). Segundo Albert e Anderson (1984) a detecção da separação entre grupos pode ser abordada de duas maneras dstntas, algébrca ou empírca. Em expansão do trabalho de Albert e Anderson (1984), Santner e Duffy (1986) apresentaram um modelo de Programação Lnear que classfca os dados como () completamente separados, () quase separados () sobrepostos. Clarkson e Jenrck (1991) também apresentaram procedmentos computaconas sofstcados para detectar a separação dos dados, no entanto, na prátca há duas alternatvas smples para dentfcar a separação: Caso a covarável seja contnua, montorar a varânca dos coefcentes estmados da regressão 14

28 (Henze e Schemper, 2002), se observar varâncas grandes para algum parâmetro estmado, há um ndcatvo de separabldade. Outra alternatva, caso a covarável seja categórca, é fazer uma tabela de contngênca, cruzando a varável resposta com cada uma das covaráves categórcas e verfcar se exstem caselas com valores observados guas a zero (Nacle, 2004). O valor zero em apenas uma, e somente uma, casela ndca separação quase-completa, dos zeros em caselas dscordantes ndcam separação completa. 2.2 Estmadores de máxma verossmlhança A estmação dos parâmetros no caso do modelo de regressão logístca, geralmente é realzada utlzando o método de máxma verossmlhança. No entanto, Albert e Anderson (1984) provaram que quando um conjunto de dados está nas categoras de separação completa ou quase-completa, a função de verossmlhança genuína (Fgura 2.2 b) do modelo logístco é monótona e, portanto, por este método obtêm-se estmatvas nfntas. Desta forma, torna-se mportante encontrar um procedmento efcente para a estmação destes parâmetros. (a) (b) Fgura 2.2 Ilustração de uma função de verossmlhança, com estmatvas fntas (a) e nfntas (b). Henze e Schemper (2002) propuseram as seguntes soluções para tratar uma stuação em que se observa separação completa ou quase-completa: Omssão da covarável do modelo, utlzação de uma função de lgação dferente da logt para o modelo de regressão logístca, manpulação de dados, regressão logístca exata, modfcação da função escore proposta por Frth (1993), sendo a últma recomendada por estes autores. 15

29 O método de máxma verossmlhança penalzada proposto por Frth (1993) fornece uma solução smples, válda e fácl de ser mplementada em problemas de separabldade (Zorn, 2005). Este método não envolve manpulação arbtrára de dados nem modfcações complcadas de modelos padrão. Ele também não altera a nterpretação dos modelos e esta dsponível em pacotes estatístcos. Anda, segundo Zorn (2005), talvez a melhor vantagem seja que este procedmento é, assntotcamente equvalente ao método de máxma verossmlhança genuína no caso de amostras grandes e, superor no caso de pequenas ou médas amostras, onde a separabldade é mas provável de ocorrer O método de máxma verossmlhança penalzada O método de máxma verossmlhança penalzada fo orgnalmente desenvolvdo por Frth (1993). A fnaldade deste método é reduzr o vés de prmera ordem das estmatvas de máxma verossmlhança genuína, produzndo estmatvas fntas para os parâmetros do modelo. A modfcação proposta por Frth (1993) fo ntroduzr um pequeno vés na função escore. Segundo este autor, se o parâmetro alvo é o parâmetro canônco de uma famíla exponencal, o método smplesmente penalza a verossmlhança pela dstrbução a pror nvarante de Jeffreys (Jeffreys, 1946), que corresponde a nformação de Fscher. Para outras parametrzações do modelo da famíla exponencal ou não exponencal uma escolha para correção do vés está dsponível usando nformações observadas e esperadas, mas este método resulta numa perda de efcênca de segunda ordem (Frth, 1993). Especfcamente em modelos de regressão logístca é desejável a penalzação para produzr estmatvas fntas para os parâmetros da regressão logístca na presença de separabldade. Quando as estmatvas são obtdas por máxma verossmlhança genuína, as soluções são encontradas usando a função escore, l( β ) U j ( β ) =, j= 1, 2,..., p+ 1, β j tal que U j ( β ) = 0, (1.23) no entanto na presença de separabldade, Frth (1993) sugere a estmação baseada na função escore modfcada, dada por: 1 I( β ) U = U + traço I j= p+ * 1 j( β) j( β) ( β), 1,2,..., 1. 2 β j 16

30 A função escore modfcada * U j ( β ) esta relaconada com a função logarítmca da verossmlhança penalzada l( β ) = l( β) + ln I( β) e com a função de verossmlhança 2 * 1 penalzada 1 2 * L( β ) = L( β) I( β), onde a penalzação 1 2 I( β ) tem efeto assntotcamente desprezível (Zorn, 2005). Aplcando o método geral de Frth (1993) para o modelo de regressão logístca a função escore (1.14) é substtuída pela função escore modfcada * 1 ( β) = n U j y π + h π xj, j = 1,2,..., p + 1 onde os hs são os elementos da = 1 2 dagonal da matrz T 1 T 2 Hˆ = W X( X WX) X W e W = dag{ π (1 π )}, =1,...,n. As estmatvas podem ser obtdas teratvamente pelo método usual de convergênca (Collett, 1994) em U β = e, * j ( ) 0 ( s + 1) s 1 ( ) ( ) * β = β + I ( β s ) U( β s ) onde, o sobrescrto se refere à s- ésma teração. O método de penalzação proposto por Frth (1993), encontra-se mplementado em alguns programas computaconas. Como exemplos podem ser ctadas as bblotecas logstf e brglm (Kosmds e Frth, 2008), todas estas mplementações estão no software R (R Development Core Team, 2009). Outra alternatva é a macro (fl) do software SAS, que atualmente fo mplementada no procedmento PROC LOGISTIC com a opção FIRTH do software SAS 9.2 (SAS, 2009) Testes estatístcos sob separabldade O teste de Wald é um dos mas utlzados para fazer nferêncas sobre os parâmetros do modelo logístco. Entretanto, Hauck e Donner (1977) nvestgando o problema de utlzar o teste de Wald, consderando o modelo logístco bnomal com um únco parâmetro, tendo em vsta resultados de smulações sob Ho, observaram que o mesmo, para determnados tamanhos de amostras, apresenta um comportamento atípco. Estes resultados dzem respeto as grandes dferenças entre os valores estmados e o valor paramétrco, neste caso zero, e também a tendênca da estatístca do teste em assumr zero, mplcando em baxo poder do teste. Anda em relação a este baxo poder do teste de Wald, 17

31 Agrest (2002) relata que o teste da razão de verossmlhanças (TRV) é mas confável e também mas realsta para pequenas amostras. Quando os dados estverem na confguração de separabldade, segundo Henze e Schemper (2002), o teste de Wald resultará em ntervalos de confança com ampltude nfnta, que é consequênca da obtenção de estmatvas mprecsas para os parâmetros sujetos a esta condção. Portanto, sob a confguração de separabldade e quando o método de estmação é o de máxma verossmlhança genuína não se recomenda a utlzação da estatístca de Wald para fazer nferêncas. O teste da razão de verossmlhanças mesmo sendo preferível por város autores tas como Hauck e Donner (1977) e Agrest (2002), quando a confguração de dados está sob separabldade e o método de estmação é o de máxma verossmlhança genuína o comportamento do poder desta estatístca teste não fo avalado na lteratura e será nvestgado neste trabalho. Por outro lado nferêncas quando o método de estmação é o de máxma verossmlhança penalzada podem ser fetas pelo teste de Wald, pos, tal método de estmação produz estmatvas fntas e mas precsas Frth (1993). No entanto, desconhecese o comportamento do poder desta estatístca teste. No Capítulo 3 será avalado, por meo de smulação Monte Carlo, o poder deste teste, assm como compará-lo com o da estatístca TRV. 18

32 Capítulo 3 Avalação de testes estatístcos em regressão logístca sob a condção de separabldade Neste capítulo é apresentado os cenáros para a smulação de dados utlzados para a comparação dos testes de hpóteses de nteresse, o modelo proposto para análse dos dados smulados e resultados comparatvo do poder dos testes em questão. Tendo em vsta a revsão descrta no Capítulo 2 sobre os testes e suas possíves aplcações às stuações envolvendo separabldade, confecconou-se a Tabela 3.1 com o ntuto de resumr os testes possíves de serem comparados na smulação. Tabela 3.1 Testes estatístcos sob separabldade Testes Método de estmação MV penalzada MV genuína TRV Possível Wald Possível Não aplcável Dante das duas alternatvas possíves apresentadas na Tabela 3.1, torna-se nteressante sob o ponto de vsta estatístco comparar o comportamento do teste de Wald consderando o método MV penalzada com a do TRV consderando o método da MV genuína. Para tanto, fo proposta uma smulação Monte Carlo com o objetvo de avalar o poder destes testes. 3.1 Modelo utlzado na smulação dos dados bnáros Consderou-se o segunte modelo no processo de smulação que teve como objetvo avalar o poder do teste de Wald e o teste da razão de verossmlhanças (TRV). π exp( β + β x ) 0 1 = PY ( = 1 X = x) =, = 1, 2,..., η, em que: (3.1) 1 + exp( β0 + β1x ) Y é a varável bnára (Y =0 ou Y =1); β e β são os parâmetros do modelo logístco em questão; 0 1 x é a varável explcatva bnára (x =-1 ou x =1). 19

33 Os dferentes cenáros assumdos no estudo de smulação foram defndos pelas combnações mostradas na Tabela 3.2. Tabela 3.2 Valores de β 0, β 1 e η utlzados na smulação β 0 β 1 η 2-5 [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200 η/2 = número de observações geradas para cada grupo da varável x, ou seja, -1 e 1, sendo η o tamanho amostral para cada smulação. A codfcação adotada para x (1 e -1) teve como objetvo fazer com que os valores de π fossem determnados pelos valores dos dos parâmetros ( β 0 e β 1) smultaneamente, de forma que a condção de separabldade fosse determnada pela combnação de valores assumdos por estes dos parâmetros. Com a codfcação utlzada, observa-se as probabldades β0+ β1( 1) β0 β = 1 1 ( = 1 = 1) = e = e π PY x, (3.2) β0+ β1( 1) 0 1 e 1 + β β e β0+ β1(1) β0+ β = 1 2 ( = 1 = 1) = e = e π PY x. (3.3) β0+ β1(1) 0+ 1 e 1 + β β e Para lustrar a relevânca da codfcação usada (x = -1 ou x = 1), ao fxar β 0 = 3 e varar β 1, tem se as curvas de probabldade apresentadas na Fgura De acordo com a Fgura 3.1, ao optar por β 1 = 2, e tendo em vsta o valor fxo β =, observa-se que π 1 = 0,2689 e π 2 = 0,00669, (dadas respectvamente pelas probabldades de sucesso quando x = -1 e x = 1). Como π 2 é muto pequena, espera-se que para x = 1 a maora absoluta dos valores observados de Y sejam zero (fracasso), uma vez que esta varável é gerada por meo das probabldades em questão. 20

34 Este processo de geração de valores de Y medante π 1 e π 2 consste smplesmente em gerar N valores de uma dstrbução de Bernoull ( π 1 ) e outros N valores de uma outra dstrbução Bernoull ( π 2 ). Fgura 3.1 Probabldade de sucesso obtdas ao se varar β 1 e fxar β 0 = 3. O processo de smulação descrto anterormente fo repetdo n = 2000 vezes para cada cenáro, sto é, para cada combnação de valores de β 0, β 1 e η. Deste total de n repetções foram calculadas as proporções de conjuntos de dados que se classfcavam de acordo com as três possíves confgurações: separabldade completa, quase completa e casos comuns (overlap) (tem 2.1 do Capítulo 2). Tas proporções são apresentadas em tabelas do apêndce A com o ntuto de auxlar na avalação do poder dos testes estudados. Na Fgura 3.2 são apresentadas as curvas de probabldade que determnam todos os possíves valores para π 1 e π 2 provenentes de todas as combnações entre os valores consderados para β 0 e β 1. Fgura 3.2 Probabldade de sucesso obtdas ao se varar β 0 e β 1. 21

35 3.2 Análses dos dados smulados e crtéros de comparação Os dados smulados no tem anteror foram analsados por meo do modelo logístco (Hosmer e Lemeshow, 1989): exp( β0 + β1x ) Y = E( Y x) + e = π + e = + e, em que: (3.4) 1+ exp( β + β x ) π é a PY ( = 1 X = x) conforme expressão (3.1); 0 1 e é o termo de erro aleatóro, em que Ee ( ) = 0 e V( e) = π (1 π ). O modelo apresentado em (3.4) fo ajustado aos dados gerados pelo processo de smulação descrto na seção 3.1 consderando os dos métodos apresentados na Tabela 3.1: máxma verossmlhança genuína e máxma verossmlhança penalzada. Para tanto, foram utlzados, respectvamente, glm e brglm do software R (R Development Core Team, 2009). Dentre todos os cenáros defndos por combnações de valores de β 0 e β 1, um em especal, caracterzado por β 1=0, representa a condção em que os dados foram smulados sob a hpótese de nuldade, ou seja: H 0 : β 1 = 0 vs Ha : β1 0. A relevânca desta condção está fundamentada no fato da mesma permtr a avalação do poder dos dos testes propostos na Tabela 3.1. Isto é porque, sob a confguração de separabldade não se sabe ao certo o poder do teste de razão de verossmlhanças, quando se utlza o método da máxma verossmlhança genuína e nem o poder do teste de Wald quando se utlza o método de máxma verossmlhança penalzada. Em uma análse de smulação de dados, uma forma prátca e efcente de se comparar o poder entre dferentes testes é por meo de uma análse gráfca, a qual consste em plotar a proporção de rejeção de Ho em função dos valores consderados para o parâmetro testado nesta mesma hpótese. A proporção em questão é calculada pela razão entre o número de repetções da smulação na qual o valor da estatístca do teste fo maor que um valor tabelado, após a especfcação de um dado nível de sgnfcânca, e o número total de repetções usado na smulação. Uma lustração é apresentada na Fgura 3.3, na qual se observa, por exemplo, que para β 1 = -1,5 a curva de poder do teste A fornece uma proporção de rejeção de 0,33, enquanto que a curva do teste B fornece uma proporção de 0,01. Como o valor de β 1 não corresponde ao valor consderado em Ho (Ho: β 1 =0), conclu-se que o teste com maor 22

36 proporção de rejeção de Ho será o mas poderoso, neste caso tal teste é o A. Verfca-se no gráfco em questão, que este resultado se repete para todos os valores de β 1. Fgura 3.3 Ilustração das curvas de poder para os testes A e B. No presente estudo, curvas smlares às apresentadas na Fgura 3.3, foram confecconadas para o TRV e de Wald para dferentes stuações, as quas foram representadas pelas varações de β 0 e η, que por sua vez representam dferentes proporções de separabldade nos dados gerados. Para tanto, fo utlzado um nível de sgnfcânca de 5%, de forma que para rejetar Ho, os valores das estatístcas dos testes em questão foram 2 comparados com o valor 3,84, tendo em vsta a dstrbução aproxmada χ v= 1. Outra forma de estudar um teste de hpótese é por meo da avalação de seu comportamento assntótco sob Ho, pos ao aumentar o tamanho da amostra, espera-se que a proporção de rejeção desta hpótese apresente uma convergênca para o nível de sgnfcânca adotado. Dessa forma, uma análse gráfca deste processo permte comparar dferentes testes por meo da vsualzação da velocdade com que estes convergem para α%, assm o teste que atnge tal valor com um tamanho de amostra menor é aquele que apresenta melhor comportamento assntótco. Uma lustração é apresentada na Fgura 3.4, na qual observa-se que sob Ho ambos os testes (C e D) comparados a um nível de 5% de sgnfcânca apresentam a referda convergênca, porém esta é atngda mas rapdamente pelo C, mplcando em uma melhor performance deste teste sob o ponto de vsta assntótco. No presente trabalho gráfcos smlares ao apresentado na Fgura 3.4 foram confecconados com o ntuto de avalar o comportamento assntótco do TRV e de Wald 23

37 consderando dferentes valores de β 0, os quas representam as dferentes proporções de separabldade nos dados gerados. P(RHo Ho=0) Comportamento assntótco do teste C Comportamento assntótco do teste D Fgura 3.4 Comportamento assntótco dos testes C e D. η 3.3 Resultados e dscussão As Tabelas A1, A2, A3, A4, A5, A6, A7 e A8, todas apresentadas no Apêndce A, mostram as proporções de cada categora de conjunto de dados (separação quase completa, separação completa e casos comuns ou overlap) smulados consderando os cenáros defndos pelas combnações dos valores assumdos para η, β0e β 1. Observa-se que a proporção de conjuntos de dados na confguração de separabldade depende prncpalmente do tamanho da amostra ( 2N = η ), uma vez que quanto maor este valor, maor é a quantdade esperada de sucessos em stuações desfavoráves para a ocorrênca dos mesmos. Este fato descaracterza a condção de separabldade, ou seja, a ausênca de sucesso. Estas stuações desfavoráves são verfcadas para baxos valores de π 1 ou para baxos valores deπ 2, uma vez que estes desfavorecem respectvamente a ocorrênca de sucesso para os valores de x =-1 e x =1. Em resumo, se η é grande, ndependentemente dos valores de β 0, β 1, π 1 eπ 2, maor a proporção de casos comuns (overlap). Como exemplo, nota-se que para β 0 > 3, conforme Tabelas A4, A5, A6, A7 e A8, e N > 100, tem-se uma quase totaldade de overlap, ou seja, ausênca de separabldade, stuação na qual Agrest (2002) relata que a superordade do TRV sobre de Wald já é conhecda. 24

38 De forma geral, as Tabelas A1 a A8 menconadas anterormente têm como objetvo auxlar a nterpretação dos gráfcos representatvos das curvas de poder de cada teste. Uma vez que o objetvo é avalar o poder dos testes em conjuntos de dados na confguração de separabldade, a ndcação da proporção de dados nesta confguração encontra-se nas Tabelas em questão. Nas Fguras 3.5 e 3.6 são apresentadas as curvas de poder dos dos testes obtdas respectvamente para o menor (η=10) e maor (η=400) tamanhos de amostra. Nota-se nestas Fguras que para η=400 (Fgura 3.6) as curvas para ambos os testes são mas fechadas que aquelas observadas para η=10 (Fgura 3.5), evdencando que aumentado o tamanho da amostra os testes ganham poder. Observa-se em todas fguras que as curvas mas abertas, em que β 0 são menores, são aquelas para os cenáros com maores proporções de separabldade, mostradas nas Tabelas do Apêndce A. Tendo em vsta que o prncpal objetvo do presente trabalho é avalar os testes sob condção de separabldade, há ndícos que para η=10 (Fgura 3.5) o TRV apresenta curvas mas fechadas em relação ao teste de Wald. Isto é um ndcatvo que o mesmo é mas poderoso. Proporção de rejeção de Ho η=10 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = 2 Proporção de rejeção de Ho η=10 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = β 1 β 1 (a) Fgura 3.5 Função poder empírca dos testes da razão de verossmlhanças (TRV) (a) e de Wald (b) para amostras de tamanho η=10. (b) 25

39 Proporção de rejeção de Ho η=400 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = 2 Proporção de rejeção de Ho η=400 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = β 1 β 1 (a) (b) Fgura 3.6 Função poder empírca dos testes da razão de verossmlhanças (TRV) (a) e de Wald (b) para amostras de tamanho η=400. Uma vez que baxos valores de β 0 também propcam a condção de separabldade (Fgura 3.2), as Fguras 3.7 e 3.8 mostram as curvas de poder de ambos os testes para o menor valor de β0 consderado ( β 0 = 5 ), respectvamente para o menor e maor tamanho amostral. Nota-se nas Fguras 3.7 e 3.8 as quas são partes das Fguras 3.5 e 3.6, que realmente o TRV é mas poderoso que o teste de Wald sob separabldade, pos em ambos os gráfcos esta condção está presente, porém com maor ncdênca para η=10 (Fgura 3.7) conforme Tabela A1 mostrada no apêndce. As Fguras A13 a A16 apresentadas no apêndce mostram o poder dos testes para cenáros ntermedáros. O tamanho empírco, nível descrtvo, dos testes em questão é mostrado nas Fguras 3.9 (a) e (b), e pode ser verfcado, que os dos testes convergem para o nível descrtvo quando η cresce. Nota-se que nas Fguras 3.9 (a) e (b) a proporção de rejeção de Ho utlzando-se a estatístca TRV e da estatístca de Wald convergem para o nível descrtvo estabelecdo em todos os cenáros, porém, a estatístca de Wald converge mas lentamente. Esta convergênca pode ser observada mas faclmente para β 0 = -5 que é o cenáro no qual apresenta maor proporção de separabldade como pode ser observado nas Tabelas A1 a A8. 26

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

4 Critérios para Avaliação dos Cenários

4 Critérios para Avaliação dos Cenários Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS 1 A análse de dagnóstco (ou dagnóstco do ajuste) confgura uma etapa fundamental no ajuste de modelos de regressão. O objetvo prncpal da análse de dagnóstco

Leia mais

REGRESSÃO NÃO LINEAR 27/06/2017

REGRESSÃO NÃO LINEAR 27/06/2017 7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA

UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA BELO HORIZONTE 28 JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA

Leia mais

3 A técnica de computação intensiva Bootstrap

3 A técnica de computação intensiva Bootstrap A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação

Leia mais

Testes não-paramétricos

Testes não-paramétricos Testes não-paramétrcos Prof. Lorí Val, Dr. http://www.mat.ufrgs.br/val/ val@mat.ufrgs.br Um teste não paramétrco testa outras stuações que não parâmetros populaconas. Estas stuações podem ser relaconamentos,

Leia mais

AULA EXTRA Análise de Regressão Logística

AULA EXTRA Análise de Regressão Logística 1 AULA EXTRA Análse de Regressão Logístca Ernesto F. L. Amaral 13 de dezembro de 2012 Metodologa de Pesqusa (DCP 854B) VARIÁVEL DEPENDENTE BINÁRIA 2 O modelo de regressão logístco é utlzado quando a varável

Leia mais

Análise de Regressão

Análise de Regressão Análse de Regressão método estatístco que utlza relação entre duas ou mas varáves de modo que uma varável pode ser estmada (ou predta) a partr da outra ou das outras Neter, J. et al. Appled Lnear Statstcal

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear normal com erros heterocedástcos O método de mínmos quadrados ponderados Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Capítulo 1. Exercício 5. Capítulo 2 Exercício UNIVERSIDADE FEDERAL DE GOIÁS CIÊNCIAS ECONÔMICAS ECONOMETRIA (04-II) PRIMEIRA LISTA DE EXERCÍCIOS Exercícos do Gujarat Exercíco 5 Capítulo Capítulo Exercíco 3 4 5 7 0 5 Capítulo 3 As duas prmeras demonstrações

Leia mais

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Leia mais

Métodos Avançados em Epidemiologia

Métodos Avançados em Epidemiologia Unversdade Federal de Mnas Geras Insttuto de Cêncas Exatas Departamento de Estatístca Métodos Avançados em Epdemologa Aula 5-1 Regressão Lnear Smples: Estmação e Interpretação da Reta Tabela ANOVA e R

Leia mais

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade

Leia mais

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES 1. Obtenha os estmadores dos coefcentes lnear e angular de um modelo de regressão lnear smples utlzando o método

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. A análse

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear clássco com erros heterocedástcos O método de mínmos quadrados ponderados 1 Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíves resultados de um expermento. Evento é qualquer subconjunto do espaço amostral. Evento combnado: Possu duas ou

Leia mais

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PRESSUPOSTOS DO MODELO DE REGRESSÃO PREUPOTO DO MODELO DE REGREÃO A aplcação do modelo de regressão lnear múltpla (bem como da smples) pressupõe a verfcação de alguns pressupostos que condensamos segudamente.. Os erros E são varáves aleatóras

Leia mais

Análise de Variância. Comparação de duas ou mais médias

Análise de Variância. Comparação de duas ou mais médias Análse de Varânca Comparação de duas ou mas médas Análse de varânca com um fator Exemplo Um expermento fo realzado para se estudar dabetes gestaconal. Desejava-se avalar o comportamento da hemoglobna (HbA)

Leia mais

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro. Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na

Leia mais

Regressão Linear Simples by Estevam Martins

Regressão Linear Simples by Estevam Martins Regressão Lnear Smples by Estevam Martns stvm@uol.com.br "O únco lugar onde o sucesso vem antes do trabalho, é no dconáro" Albert Ensten Introdução Mutos estudos estatístcos têm como objetvo estabelecer

Leia mais

Teoria Elementar da Probabilidade

Teoria Elementar da Probabilidade 10 Teora Elementar da Probabldade MODELOS MATEMÁTICOS DETERMINÍSTICOS PROBABILÍSTICOS PROCESSO (FENÓMENO) ALEATÓRIO - Quando o acaso nterfere na ocorrênca de um ou mas dos resultados nos quas tal processo

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

3 Método Numérico. 3.1 Discretização da Equação Diferencial

3 Método Numérico. 3.1 Discretização da Equação Diferencial 3 Método Numérco O presente capítulo apresenta a dscretação da equação dferencal para o campo de pressão e a ntegração numérca da expressão obtda anterormente para a Vscosdade Newtonana Equvalente possbltando

Leia mais

Identidade dos parâmetros de modelos segmentados

Identidade dos parâmetros de modelos segmentados Identdade dos parâmetros de modelos segmentados Dana Campos de Olvera Antono Polcarpo Souza Carnero Joel Augusto Munz Fabyano Fonseca e Slva 4 Introdução No Brasl, dentre os anmas de médo porte, os ovnos

Leia mais

DELINEAMENTOS EXPERIMENTAIS

DELINEAMENTOS EXPERIMENTAIS SUMÁRIO 1 Delneamentos Expermentas 2 1.1 Delneamento Interamente Casualzado..................... 2 1.2 Delneamento Blocos Casualzados (DBC).................... 3 1.3 Delneamento Quadrado Latno (DQL)......................

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Análse de Regressão Profa Alcone Mranda dos Santos Departamento de Saúde Públca UFMA Introdução Uma das preocupações estatístcas ao analsar dados, é a de crar modelos que explctem estruturas do fenômeno

Leia mais

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco

Leia mais

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS 177 DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS Antôno Carlos da Slva Flho Un-FACEF Introdução Trend Strps (TS) são uma nova técnca de análse da dnâmca de um sstema,

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

CURSO A DISTÂNCIA DE GEOESTATÍSTICA CURSO A DISTÂNCIA DE GEOESTATÍSTICA Aula 6: Estaconardade e Semvarânca: Estaconardade de a. ordem, Hpótese ntríseca, Hpótese de krgagem unversal, Crtéros para escolha, Verfcação, Representatvdade espacal,

Leia mais

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES Ana Paula Coelho MADEIRA Lucas Montero CHAVES Devanl Jaques de SOUZA Resumo: Uma valdação matemátca, utlzando o conceto de

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial 5 Métodos de cálculo do lmte de retenção em função da ruína e do captal ncal Nesta dssertação serão utlzados dos métodos comparatvos de cálculo de lmte de retenção, onde ambos consderam a necessdade de

Leia mais

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011 Instruções: PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 00/0 Cada uestão respondda corretamente vale (um) ponto. Cada uestão respondda ncorretamente vale - (menos um) ponto. Cada uestão

Leia mais

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária. Modelagem multvarável com varáves quanttatvas e qualtatvas, com resposta bnára. O modelo de regressão não lnear logístco ou modelo logístco é utlzado quando a varável resposta é qualtatva com dos resultados

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-4 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Programa do curso: Semana Conteúdo Apresentação da dscplna. Prncípos de modelos lneares de regressão.

Leia mais

Análise de Regressão Linear Múltipla IV

Análise de Regressão Linear Múltipla IV Análse de Regressão Lnear Múltpla IV Aula 7 Guarat e Porter, 11 Capítulos 7 e 8 He et al., 4 Capítulo 3 Exemplo Tomando por base o modelo salaro 1educ anosemp exp prev log 3 a senhorta Jole, gerente do

Leia mais

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará Regressão Logístca Aplcada aos Casos de Sífls Congênta no Estado do Pará Crstane Nazaré Pamplona de Souza 1 Vanessa Ferrera Montero 1 Adrlayne dos Res Araújo 2 Edson Marcos Leal Soares Ramos 2 1 Introdução

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

Psicologia Conexionista Antonio Roque Aula 8 Modelos Conexionistas com tempo contínuo

Psicologia Conexionista Antonio Roque Aula 8 Modelos Conexionistas com tempo contínuo Modelos Conexonstas com tempo contínuo Mutos fenômenos de aprendzado assocatvo podem ser explcados por modelos em que o tempo é uma varável dscreta como nos casos vstos nas aulas anterores. Tas modelos

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-14 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Prncípos de cração de modelos empírcos: Modelos (matemátcos, lógcos, ) são comumente utlzados na

Leia mais

Programa de Certificação de Medidas de um laboratório

Programa de Certificação de Medidas de um laboratório Programa de Certfcação de Meddas de um laboratóro Tratamento de dados Elmnação de dervas Programa de calbração entre laboratóros Programa nterno de calbração justes de meddas a curvas Tratamento dos resultados

Leia mais

ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL

ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL Revsta Matz Onlne ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL Valera Ap. Martns Ferrera Vvane Carla Fortulan Valéra Aparecda Martns. Mestre em Cêncas pela Unversdade de São Paulo- USP.

Leia mais

Análise de Regressão Linear Múltipla VII

Análise de Regressão Linear Múltipla VII Análse de Regressão Lnear Múltpla VII Aula 1 Hej et al., 4 Seções 3. e 3.4 Hpótese Lnear Geral Seja y = + 1 x 1 + x +... + k x k +, = 1,,..., n. um modelo de regressão lnear múltpla, que pode ser escrto

Leia mais

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO Unversdade Federal de São Carlos Centro de Cêncas Exatas e de Tecnologa Departamento de Estatístca UMA FAMÍLIA DE MODELOS DE REGRESSÃO COM A DISTRIBUIÇÃO ORIGINAL DA VARIÁVEL RESPOSTA Marcelo de Paula

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

Contabilometria. Aula 8 Regressão Linear Simples

Contabilometria. Aula 8 Regressão Linear Simples Contalometra Aula 8 Regressão Lnear Smples Orgem hstórca do termo Regressão Le da Regressão Unversal de Galton 1885 Galton verfcou que, apesar da tendênca de que pas altos tvessem flhos altos e pas axos

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

5 Implementação Procedimento de segmentação

5 Implementação Procedimento de segmentação 5 Implementação O capítulo segunte apresenta uma batera de expermentos prátcos realzados com o objetvo de valdar o método proposto neste trabalho. O método envolve, contudo, alguns passos que podem ser

Leia mais

2 Metodologia de Medição de Riscos para Projetos

2 Metodologia de Medição de Riscos para Projetos 2 Metodologa de Medção de Rscos para Projetos Neste capítulo remos aplcar os concetos apresentados na seção 1.1 ao ambente de projetos. Um projeto, por defnção, é um empreendmento com metas de prazo, margem

Leia mais

(1) A uma parede totalmente catalítica quanto para uma parede com equilíbrio catalítico. No caso de uma parede com equilíbrio catalítico, tem-se:

(1) A uma parede totalmente catalítica quanto para uma parede com equilíbrio catalítico. No caso de uma parede com equilíbrio catalítico, tem-se: 1 RELATÓRIO - MODIFICAÇÃO DA CONDIÇÃO DE CONTORNO DE ENTRADA: MODELOS PARCIALMENTE CATALÍTICO E NÃO CATALÍTICO PARA ESCOAMENTOS COM TAXA FINITA DE REAÇÃO 1. Condções de contorno Em escoamentos reatvos,

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

Capítulo 2. Modelos de Regressão

Capítulo 2. Modelos de Regressão Capítulo 2 Modelos de regressão 39 Capítulo 2 Modelos de Regressão Objetvos do Capítulo Todos os modelos são errados, mas alguns são útes George E P Box Algumas vezes fcamos assustados quando vemos engenheros

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares Modelagem do crescmento de clones de Eucalyptus va modelos não lneares Joselme Fernandes Gouvea 2 Davd Venanco da Cruz 3 Máco Augusto de Albuquerque 3 José Antôno Alexo da Slva Introdução Os fenômenos

Leia mais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais 30 Varáves aleatóras bdmensonas Sea ε uma experênca aleatóra e S um espaço amostral assocado a essa experênca. Seam X X(s) e Y Y(s) duas funções cada uma assocando um número real a cada resultado s S.

Leia mais

3. Estatística descritiva bidimensional

3. Estatística descritiva bidimensional 3. Estatístca descrtva bdmensonal (Tabelas, Gráfcos e números) Análse bvarada (ou bdmensonal): avala o comportamento de uma varável em função da outra, por exemplo: Quantas TV Phlps são venddas na regão

Leia mais

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva Teora da Regressão Espacal Aplcada a Modelos Genércos Sérgo Alberto Pres da Slva ITENS DE RELACIONAMENTOS Tópcos Báscos da Regressão Espacal; Banco de Dados Geo-Referencados; Modelos Genércos Robustos;

Leia mais

Covariância na Propagação de Erros

Covariância na Propagação de Erros Técncas Laboratoras de Físca Lc. Físca e Eng. omédca 007/08 Capítulo VII Covarânca e Correlação Covarânca na propagação de erros Coefcente de Correlação Lnear 35 Covarânca na Propagação de Erros Suponhamos

Leia mais

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL ESCOLA DE ENGENHARIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO

Leia mais

Estatística I Licenciatura MAEG 2006/07

Estatística I Licenciatura MAEG 2006/07 Estatístca I Lcencatura MAEG 006/07 AMOSTRAGEM. DISTRIBUIÇÕES POR AMOSTRAGEM.. Em determnada unversdade verfca-se que 30% dos alunos têm carro. Seleccona-se uma amostra casual smples de 0 alunos. a) Qual

Leia mais

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES Capítulo. Aproxmações numércas 1D em malhas unformes 9 Capítulo. AROXIMAÇÕS NUMÉRICAS 1D M MALHAS UNIFORMS O prncípo fundamental do método das dferenças fntas (MDF é aproxmar através de expressões algébrcas

Leia mais

Elementos de Estatística e Probabilidades II

Elementos de Estatística e Probabilidades II Elementos de Estatístca e Probabldades II Varáves e Vetores Aleatóros dscretos Inês Das 203 O prncpal objetvo da deste documento é fornecer conhecmentos báscos de varáves aleatóras dscretas e pares aleatóros

Leia mais

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um). INTRODUÇÃO À PROILIDDE teora das probabldade nada mas é do que o bom senso transformado em cálculo probabldade é o suporte para os estudos de estatístca e expermentação. Exemplos: O problema da concdênca

Leia mais

Estatística Espacial: Dados de Área

Estatística Espacial: Dados de Área Estatístca Espacal: Dados de Área Dstrbução do número observado de eventos Padronzação e SMR Mapas de Probabldades Mapas com taxas empírcas bayesanas Padronzação Para permtr comparações entre dferentes

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

4 Discretização e Linearização

4 Discretização e Linearização 4 Dscretzação e Lnearzação Uma vez defndas as equações dferencas do problema, o passo segunte consste no processo de dscretzação e lnearzação das mesmas para que seja montado um sstema de equações algébrcas

Leia mais

5 Formulação para Problemas de Potencial

5 Formulação para Problemas de Potencial 48 Formulação para Problemas de Potencal O prncpal objetvo do presente capítulo é valdar a função de tensão do tpo Westergaard obtda para uma trnca com abertura polnomal (como mostrado na Fgura 9a) quando

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

AEP FISCAL ESTATÍSTICA

AEP FISCAL ESTATÍSTICA AEP FISCAL ESTATÍSTICA Módulo 11: Varáves Aleatóras (webercampos@gmal.com) VARIÁVEIS ALEATÓRIAS 1. Conceto de Varáves Aleatóras Exemplo: O expermento consste no lançamento de duas moedas: X: nº de caras

Leia mais

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis Introdução A teora das probabldades é um ramo da matemátca que lda modelos de fenômenos aleatóros. Intmamente relaconado com a teora de probabldade está a Estatístca, que se preocupa com a cração de prncípos,

Leia mais

Probabilidade de Óbito por Leptospirose Humana em Belém - PA

Probabilidade de Óbito por Leptospirose Humana em Belém - PA Probabldade de Óbto or Letosrose Humana em Belém - PA. Introdução Bolssta de Incação Centífca ICEN/UFPA. e-mal: dana.olvera@cen.ufa.br ² Mestrando em Estatístca Alcada e Bometra CCE/UFV. ³ Professor(a

Leia mais

3 Elementos de modelagem para o problema de controle de potência

3 Elementos de modelagem para o problema de controle de potência 3 Elementos de modelagem para o problema de controle de potênca Neste trabalho assume-se que a rede de comuncações é composta por uma coleção de enlaces consttuídos por um par de undades-rádo ndvdualmente

Leia mais

ALGORITMOS PARA DADOS AUMENTADOS

ALGORITMOS PARA DADOS AUMENTADOS ALGORITMOS PARA DADOS AUMNTADOS. INTRODUÇÃO Dos algortmos baseados na consderação de dados latentes. Temos os dados efetvamente observados e de uma manera convenente aumentamos esses dados ntroduzndo os

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-4 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Programa do curso: Semana Conteúdo Apresentação da dscplna. Prncípos de modelos lneares de regressão.

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~vall/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal http://www.mat.ufrgs.br/~vall/ ou expermental. Numa relação

Leia mais