UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA

Tamanho: px
Começar a partir da página:

Download "UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA"

Transcrição

1 UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA BELO HORIZONTE 28

2 JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA Dssertação apresentada ao Programa de Pósgraduação em Estatístca da Unversdade Federal de Mnas Geras para obtenção do título de Mestre em Estatístca. Orentador: Prof. PhD. Enrco Antôno Colosmo Co-orentadora: Profª. Drª. Rosângela Helena Losch BELO HORIZONTE 28 2

3 Aos meus querdos pas, Lourdnha e José Gonçalves 3

4 Agradecmentos Agradeço a Deus, pela luz. Aos meus pas, pelo apoo e pela dedcação, sem os quas esta conqusta não sera possível. A Rede Sarah e sua equpe, que me deram a oportundade e o apoo para que eu me dedcasse ao mestrado. Ao Mauríco, que esteve comgo durante os momentos mas dfíces, me apoando e me confortando. Aos amgos, rmãos, cunhadas, sobrnhos e demas parentes, colegas do mestrado e do trabalho que me ajudaram e torceram tanto pela mnha vtóra. Em especal, ao colega Elas Krasnk, pelas contrbuções em estatístca e recursos computaconas. Ao Enrco, pelo carnho e pela dsponbldade para me orentar e apoar na realzação deste sonho. À Rosângela, pela grande ajuda e pela chance de conhecer mas um pouco de estatístca bayesana. Ao Sebastão Martns Flho, pela mportante contrbução em análse de Bayesempírca. 4

5 "We shall not cease from exploraton, And the end of all our explorng Wll be to arrve where we started, And know the place for the frst tme.' "Não cessaremos com a exploração, E o fm de todo nosso explorar Será chegar ao ponto onde começamos, E conhecer o lugar pela prmera vez." T.S. Elot 5

6 Resumo A regressão logístca é o método estatístco, frequentemente, utlzado quando o objetvo do estudo é verfcar a relação entre uma varável resposta dcotômca e covaráves relaconadas a ela. Os parâmetros do modelo, usualmente, são estmados através do método de máxma verossmlhança e testes sobre estes parâmetros são construídos consderando as dstrbuções aproxmadas dos estmadores. Isto sgnfca que amostras grandes tornam-se necessáras para termos resultados mas confáves. Em estudos envolvendo dados bnáros, é frequente a presença de uma varável resposta cujo sucesso é pouco provável, ou seja, temos um evento raro, o que pode gerar uma amostra com dados esparsos. Nestes casos, podemos ter dados que se encaxam na classfcação de separação quase-completa e esta stuação está, frequentemente, assocada à presença de uma covarável categórca. Neste caso, os estmadores de máxma verossmlhança não exstem. A nclusão de nformações a pror sobre os parâmetros no problema pode trazer um ganho para a análse dos dados. O objetvo deste trabalho fo abordar o modelo de regressão logístca bnára para os casos de separação quase-completa va métodos bayesanos e bayesanos empírcos. Realzamos um estudo da especfcação da dstrbução a pror utlzando dados gerados com separação quase-completa e superposção. Para avalar o efeto de dstrbuções a pror nas dstrbuções a posteror dos parâmetros do modelo, utlzamos, como exemplo, os dados de um estudo apresentado em Colosmo, Franco e Couto (995). Além dsto, construímos uma dstrbução a pror empírca para o modelo logístco usando os dados do exemplo e avalamos se este tpo de especfcação a pror traz algum ganho para a análse de dados com separação quase-completa. Os resultados foram comparados com a proposta de estmação por máxma verossmlhança penalzada. Verfcamos que a especfcação da dstrbução a pror é a chave para a aproprada utlzação da estatístca bayesana. Com uma adequada defnção da dstrbução a pror podemos chegar a melhores resultados que com a estmação por máxma verossmlhança penalzada, no caso de separação quase-completa. Palavras-chave: Regressão Logístca; Separação quase-completa; Eventos Raros; Estatístca bayesana; Bayes empírco. 6

7 Abstract Logstc regresson s a statstc method, often used when the study s objectve s to verfy the relatonshp between a dchotomous outcome varable and a set of covarates related to t. The model parameters are usually estmated through the maxmum lkelhood method, and tests for such parameters are constructed takng nto account the estmators approxmate dstrbutons. Ths means that large samples are requred for more relable results. In studes nvolvng bnary data, the presence of an outcome varable whose success s very unlkely s frequent, that s, t s a rare event, whch may produce a sample wth sparse data. In such cases we may have data whch ft n the classfcaton of quascomplete separaton, and that stuaton s often assocated to the presence of a categorcal covarate. In that case maxmum lkelhood estmators do not exst. Includng a pror nformaton on the problem parameters may yeld a gan for data analyss. The goal of the present study s to approach the bnary logstc regresson model for cases of quas-complete separaton by Bayesan and emprcal Bayes methods. We carred out a study on the specfcaton of a pror dstrbuton employng data produced wth quas-complete separaton and overlap. To assess the effect of a pror dstrbutons on a posteror dstrbutons of the model parameters, we used, as an example, the data from a study presented n Colosmo, Franco and Couto (995). In addton, we constructed an emprcal a pror dstrbuton for the logstc model usng data from the example and verfed whether that type of a pror specfcaton produces any gan to the data analyss wth quas-complete separaton. Results were compared wth the estmaton proposal by penalzed maxmum lkelhood. We observed that specfcaton for a pror dstrbuton s the key to a proper use of Bayesan statstcs. Wth an adequate defnton of a pror dstrbuton we may proceed to better results than wth penalzed maxmum lkelhood estmaton, n cases of quas-complete separaton. Key-words: Logstc Regresson; Quase-complete separaton; Rare Events; Bayesan statstcs; Emprcal Bayes. 7

8 Lsta de Fguras Fgura 3. - Exemplo de conjunto de dados com separação completa (a), separação quase-completa (b) e superposção (c)... Fgura Função de verossmlhança dos dados de cranotoma...3 Fgura 5. - Gráfcos das estmatvas de, e DIC para modelos com dstrbuções a pror normas com méda zero e város valores para varânca...26 Fgura Hstogramas das dstrbuções a pror para, e 2 no caso...29 Fgura Hstogramas das dstrbuções a pror para, e 2 no caso Fgura Hstogramas das dstrbuções a pror para, e 2 no caso Fgura 5.5 Intervalos de credbldade percentílcos para as 9 dstrbuções a posteror para, e Fgura 5.6 Intervalos HPD para as 9 dstrbuções a posteror para, e

9 Lsta de Tabelas Tabela 2. - Conjunto de dados de pacentes submetdos a cranotoma...4 Tabela Dstrbução dos pacentes segundo a gravdade do caso e a presença de menngte...5 Tabela 3. - Estmadores de máxma verossmlhança para os coefcentes do modelo de regressão para os dados de cranotoma...2 Tabela 5. - Resultados da estmação por máxma verossmlhança penalzada para cada programa...9 Tabela Tabela de contngênca de Y versus X gerados na stuação superposção.. 2 Tabela Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados na stuação superposção...22 Tabela Tabela de contngênca de Y versus X gerados com separação quasecompleta...23 Tabela Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados com separação quase-completa...24 Tabela Estmatvas de parâmetros dos coefcentes da regressão logístca para dados de cranotoma...25 Tabela Dstrbuções a pror para cada θ...28 Tabela Resultados das dstrbuções a pror para, e 2 nos casos, 2 e Tabela 5.9 Resumos a posteror de para os 9 casos e para cada conjunto de pontos seleconados...3 9

10 Sumáro Capítulo - Introdução... Capítulo 2 - Motvação...4 Capítulo 3 - Modelo de Regressão Logístca Interpretação dos parâmetros Estmadores de Máxma Verossmlhança Exstênca de estmadores de máxma verossmlhança em modelos de regressão logístca Classfcação de dados logístcos Separação Completa Separação Quase-Completa Superposção Identfcação de separação e sua mportânca Estmadores de máxma verossmlhança para o exemplo de cranotoma Máxma verossmlhança penalzada...3 Capítulo 4 - Estatístca bayesana no modelo de regressão logístca O método bayesano Defnção da dstrbução a pror Análse de Bayes-empírca...7 Capítulo 5 Resultados Estmação por máxma verossmlhança penalzada Análse bayesana com dstrbução a pror normal Análse dos dados gerados Stuação de superposção Stuação de separação quase-completa Pacentes submetdos à cranotoma Análse usando dstrbuções a pror Bayes-empírca...26 Capítulo 6 - Conclusões...35 Referêncas...37 Apêndce: Programas utlzados...39

11 Capítulo Introdução Em mutos estudos na área de saúde, a varável de nteresse, também conhecda como varável resposta, apresenta apenas duas categoras. Como por exemplo, podemos ctar a remssão de uma doença (sm ou não), o resultado de um tratamento (bom ou rum), entre outras. Varáves deste tpo são classfcadas como bnáras ou dcotômcas. Quando o objetvo do estudo é verfcar a relação entre uma varável resposta dcotômca e varáves explcatvas ou covaráves relaconadas a ela, a regressão logístca é o método estatístco, frequentemente, utlzado. Os parâmetros do modelo, usualmente, são estmados através do método de máxma verossmlhança e testes sobre estes parâmetros são construídos consderando as dstrbuções assntótcas dos estmadores. Isto sgnfca que amostras grandes tornam-se necessáras para termos resultados mas confáves. Em estudos envolvendo dados bnáros é frequente a presença de uma varável resposta cujo sucesso é pouco provável de ocorrer, ou seja, temos um evento raro o que pode gerar uma amostra com dados esparsos. Neste caso, os estmadores de máxma verossmlhança podem não fornecer resultados satsfatóros para a estmação dos parâmetros ou podem não exstr. Albert e Anderson (984) dentfcaram as condções para exstênca dos estmadores de máxma verossmlhança em modelos cujo comportamento pode ser descrto va modelo logístco. Conjuntos de dados logístcos podem ser classfcados em três categoras mutuamente exclusvas e exaustvas: dados com separação completa, separação quase-completa e superposção. Estmadores de máxma verossmlhança não exstem para as duas prmeras categoras. Não são raros os problemas reas que se encaxam na classfcação de separação quase-completa. Segundo Nacle (24), esta stuação está, frequentemente, assocada à exstênca de uma varável explcatva categórca. Se, numa tabela de contngênca relaconando as varáves explcatva e resposta, observarmos frequênca nula em uma das caselas da tabela, dz-se que o conjunto de dados está na categora de separação quase-completa. Um evento raro pode ocasonar a separação quase-completa no conjunto de dados.

12 Quando uma tabela, cruzando a varável resposta com uma covarável categórca, apresenta dos zeros em caselas dscordantes dz-se que o conjunto de dados está na categora de separação completa. Segundo Henze e Schemper (22) as seguntes soluções são possíves para tratarmos uma stuação em que se observa separação completa ou separação quasecompleta: omssão da covarável no modelo, utlzação de uma função de lgação dferente da logt para o modelo de regressão logístca, manpulação de dados, regressão logístca exata e a modfcação da função escore, sendo esta últma recomendada por eles. Uma vez que, em dados que apresentam separabldade quase-completa, o estmador de máxma verossmlhança não exste, a nclusão de nformações a pror sobre os parâmetros no problema pode trazer um ganho na análse dos dados. O objetvo deste trabalho é, então, abordar o modelo de regressão logístca bnára para os casos de separação quase-completa va métodos bayesanos e bayesanos empírcos. Incalmente, a meta é avalar o efeto nas estmatvas a posteror de dstrbuções a pror vagas e nformatvas para os parâmetros do modelo. Segundo Agrest (26), a sensbldade dos resultados a mudanças na especfcação da dstrbução a pror quando a nformação é vaga é um problema para aqueles que preferem uma abordagem objetva da análse de dados, mas é atratva em relação a outros aspectos da abordagem bayesana. Também construremos uma dstrbução a pror empírca para o modelo logístco e avalaremos se este tpo de especfcação a pror traz algum ganho na análse de dados com separabldade quase-completa. Além dsto, queremos comparar estes resultados com a proposta de estmação por verossmlhança penalzada recomendada por Henze e Schemper (22). Segundo Zorn (25), o método de verossmlhança penalzada proposto por Frth (993) fornece uma solução smples, válda e fácl de mplementar em problemas de separabldade. Ele não envolve manpulação arbtrára de dados nem modfcações complcadas de modelos padrão. Ele, também, não altera a nterpretação dos modelos e é dsponível em pacotes estatístcos exstentes. Anda segundo Zorn (22), talvez a melhor vantagem é que este procedmento é, assntotcamente, equvalente ao método de máxma verossmlhança no caso de amostras grandes e superor a ele no caso de amostras pequenas, onde a separabldade é mas provável de ocorrer. 2

13 Este trabalho está organzado da segunte forma: no Capítulo 2 é apresentado o exemplo que motvou este estudo. No Capítulo 3 são apresentados o modelo de regressão logístca e a nterpretação dos seus parâmetros, os estmadores de máxma verossmlhança e os crtéros para classfcar os dados logístcos, além dos estmadores de máxma verossmlhança penalzada. O Capítulo 4 ntroduz a análse bayesana no modelo de regressão logístca, a especfcação da dstrbução a pror e a análse de Bayes-empírca. No Capítulo 5 encontram-se a análse dos resultados para o banco de dados apresentado em Colosmo, Franco e Couto (995), além de um estudo da especfcação da dstrbução a pror utlzando dados gerados com separação quasecompleta e superposção. Fnalmente, no Capítulo 6, encontram-se as conclusões desta dssertação. 3

14 Capítulo 2 Motvação Colosmo, Franco e Couto (995) analsaram um conjunto de dados formado por 2 pacentes submetdos à crurga de cranotoma no Hosptal São Francsco em Belo Horzonte, MG, entre julho de 99 e junho de 992. A varável resposta N consderada no estudo é a ocorrênca () ou não () de menngte durante os 3 das subseqüentes à realzação da crurga. Duas covaráves foram estudados para verfcar se poderam ser consderadas como fatores de rsco para a ocorrênca de menngte, a saber, a gravdade do caso, X, que fo categorzada em alta () e baxa () e o tempo (em horas) da crurga, denotada aqu por X 2. Os dados foram coletados pela equpe do controle de nfecção e são apresentados na Tabela 2., onde N denota o número de observações em cada categora. Tabela 2. - Conjunto de dados de pacentes submetdos à cranotoma. X X 2 N N X X 2 N N 2,5 2,7,33 6,5 6, 2, 3 4,5 4, 4,5 3 3, 8,33 4 4, 8 5, 3 4,75,75 3, 3 2, 8 8, 3,5 3 5,5 3,25 2,67,83 4 2,25 7, 7, 2,67 3,67 8, 2,33 3,5 6,5 3,7, 3 5,5 6, 3 2, 6,5 2,25, A Tabela 2.2 mostra a dstrbução conjunta dos pacentes submetdos à cranotoma segundo a gravdade do caso e a ocorrênca de menngte. 4

15 Tabela Dstrbução dos pacentes segundo a gravdade do caso e a presença de menngte Ocorrênca de menngte Gravdade Sm Não Total Baxa Alta Total 2 2 A ocorrênca de menngte parece ser um evento raro, uma vez que, somente,96% dos pacentes a apresentaram. Além dsto, todos os pacentes com menngte eram consderados pacentes de alta gravdade. Este fato sugere a exstênca de uma chance maor de pacentes graves contraírem menngte após a crurga. Este tpo de comportamento sugere a exstênca de separabldade quase-completa dos dados. No que segue, serão mostradas algumas estratégas sugerdas para tratar este tpo de problema e sugerremos algumas outras (ver Capítulo 5). 5

16 Capítulo 3 Modelo de Regressão Logístca O modelo de regressão logístca é utlzado para determnar os fatores que estão assocados com a ocorrênca de um evento de nteresse quando a varável resposta é bnára. Segundo Hosmer e Lemeshow (2), entre outras cosas, a partr do modelo de regressão logístca é possível estmar a probabldade da ocorrênca deste evento para um ndvíduo. Segundo Breman et al.(984), a técnca de Árvore de Classfcação e Regressão (CART) é outra opção para analsarmos este tpo de dados, mas não trataremos desta técnca neste trabalho. Assuma que Y é uma matrz de n varáves ndependentes com Y Bernoull( θ ) onde Y = representa a ocorrênca do evento de nteresse com =,..., n. Neste caso, E( Y ) = θ = P( Y = ), onde θ é a probabldade de ocorrênca do evento de nteresse para o -ésmo ndvíduo. Denote por X a -ésma lnha da matrz de p varáves explcatvas e por o vetor de ordem ( p +) referente aos parâmetros a serem estmados: Y Y Y2 =,... Y n X =... X X... X 2 n X p X 2 p... X np e =... p probabldade: Dados os valores das covaráves X, o nteresse está em determnar-se a ' X e θ = P( Y = ) = '. () X + e A função logt é dada por: θ ' logt( θ ) = log = X, θ =,..., n. (2) 6

17 Esta função não é a únca função de lgação que pode ser utlzada na regressão logístca, mas sua prncpal vantagem é a facldade de nterpretação, uma vez que ela é o logartmo da chance de ocorrênca de um determnado evento. Outras funções de lgação utlzadas na regressão bnára são a probt e a log-log (Hosmer e Lemeshow, 2). 3. Interpretação dos parâmetros Apesar de estarmos nteressados nas estmatvas dos coefcentes, a nterpretação dos seus valores não é tão smples pos depende dos valores das varáves explcatvas. Ao nvés de nterpretarmos estes coefcentes dretamente, podemos fazer a nterpretação através da razão das chances (odds rato), que é dada por: ψ e j j = =, j,..., p. Esta razão mede o quanto é mas provável a ocorrênca do evento de nteresse para um nível da covarável categórca j em relação a outro nível da mesma covarável, mantendo fxos os valores das outras covaráves. Uma razão das chances ψ = sgnfca que o evento de nteresse é tão provável para um nível da covarável, quanto para outro. No nosso problema, por exemplo, ao utlzarmos a razão das chances para nterpretarmos o coefcente da covarável gravdade, ψ = sgnfca que a probabldade de um pacente desenvolver menngte é a mesma tanto para pacentes com gravdade alta, quanto para pacentes com gravdade baxa. 3.2 Estmadores de Máxma Verossmlhança A estmação dos parâmetros do modelo de regressão logístca é, geralmente, feta usando o método de máxma verossmlhança. Os estmadores de máxma verossmlhança são os que maxmzam a função de verossmlhança. Sob a suposção de ndependênca dos valores de Y, =,..., n, a função de verossmlhança é dada por: n y y L( ) = θ ( θ ). (3) = Maxmzar a função de verossmlhança é equvalente a maxmzar o logartmo neperano da mesma função, que pode ser escrto como : 7

18 n l( ) = ln L( ) = ( y lnθ + ( y )ln( θ)). = (4) Sob condções de regulardade, segundo Casella e Berger (22), o máxmo global da função l() é encontrado, uncamente, pelas soluções da segunte expressão: l( ) =. (5) Os valores de são obtdos pela solução do sstema de ( p +) equações que fazem o vetor escore gual a zero, ou seja: U j n l( ) ( ) = = xj ( y θ j ) =, j =,..., p +. (6) j = Não exstem soluções exatas para a expressão em (6). Então, em geral, são utlzados métodos numércos teratvos método de Newton-Raphson, por exemplo - para soluconar este sstema de equações (Casella e Berger, 22) e, assm, encontrar os estmadores de máxma verossmlhança quando estes exstrem. 3.3 Exstênca de estmadores de máxma verossmlhança em modelos de regressão logístca Neste capítulo, apresentaremos formalmente os concetos de separação completa, separação quase-completa e superposção utlzados para classfcar dados logístcos. Também apresentaremos resumdamente o modelo logístco e os estmadores de máxma verossmlhança para os parâmetros do modelo e dscutremos condções para a sua exstênca. Também dscuremos o método de estmação baseado na verossmlhança penalzada proposto por Henze e Schemper (22) Classfcação de dados logístcos Como ctado anterormente, Albert e Anderson (984) mostraram que os dados logístcos podem ser classfcados em três categoras mutuamente exclusvas e exaustvas: separação completa, separação quase-completa e superposção. 8

19 A segur apresentaremos formalmente esta classfcação. Para sto, consderemos as confgurações possíves dos n valores amostras no espaço de observação partr destes valores defnremos cada uma das categoras ctadas. p R e a Separação Completa Ocorre separação completa quando, baseado na nformação de uma covarável ou combnação de covaráves, pode-se predzer corretamente o valor de uma varável de nteresse. Isto mplca na exstênca de um vetor R p + pelo qual todos os n valores amostras podem ser corretamente classfcados entre Y = ou Y =, tal que para todo, j =,, tem-se E j X X ' >, E, ' <, E, onde E j é o conjunto de lnhas dentfcadas da matrz X com valor de Y = j. A Fgura 3.(a) lustra esta categora de separação para 2 R Separação Quase-Completa Ocorre separação quase-completa quando, baseado na nformação de uma covarável ou combnação de covaráves, pode-se predzer perfetamente os valores de pelo menos um grupo da varável de nteresse, ou seja, Y = ou Y =. A separação quase-completa mplca na exstênca de um vetor R p + tal que, para todo E j, com j =, X X ', E, ', E, com gualdade para, pelo menos, um valor de. A Fgura 3.(b) lustra esta categora de separação para 2 R. 9

20 Superposção Se os dados não estão nas duas categoras anterores, necessaramente, eles estão na categora de superposção. A Fgura 3.(c) lustra esta categora de separação para 2 R. Fgura 3. - Exemplo de conjunto de dados com separação completa (a), separação quase-completa (b) e superposção (c).

21 Esta categora mplca na exstênca de um vetor R p + tal que, para todo, com j =, E j X X ' <, E, ' >, E, onde E, é o conjunto de lnhas dentfcadas da matrz X com valor de Y = j Identfcação de separação e sua mportânca Classfcar os dados logístcos em uma das três categoras, pela defnção, requer muto esforço. Santner e Duffy (986) e Clarkson e Jenrck (99) apresentaram procedmentos computaconas sofstcados para detectar se há separação nos dados. Na prátca, duas alternatvas smples para dentfcar a separação são: Montorar a varânca estmada dos coefcentes da regressão (Henze e Schemper, 22). Se observarmos varânca grande para algum parâmetro estmado, há um ndcatvo de separação; Fazer uma tabela de contngênca, cruzando a varável resposta com as covaráves e verfcar se exstem caselas com valores observados guas a zero (Nacle, 24). O valor zero em uma casela ndca separação quasecompleta, dos zeros em caselas dscordantes ndcam separação completa. Albert e Anderson (984) provaram que quando temos um conjunto de dados nas categoras de separação completa ou quase-completa, a função de verossmlhança do modelo logístco é monótona e, portanto, estmadores de máxma verossmlhança não exstem. Sendo assm, torna-se mportante encontrar um procedmento efcente para a estmação destes parâmetros na presença de separabldade completa ou quase completa.

22 3.3.3 Estmadores de máxma verossmlhança para o exemplo de cranotoma Levando-se em conta os dados de pacentes submetdos à cranotoma (veja em Colosmo, Franco e Couto (995)), verfca-se, através da Tabela 2.2, que ocorre a separação quase-completa nos dados, pos uma das caselas tem valor nulo. Fazendo a análse tradconal, tentamos estmar os coefcentes do modelo de regressão logístca através do método de máxma verossmlhança. Utlzamos, para sto, o pacote lvre R Project for Statstcal Computng (R) desenvolvdo por R Development Core Team (26). Verfcamos que há estmatva para todos os coefcentes do modelo. Mas nota-se pela Tabela 3. que apesar destes coefcentes terem sdo estmados, o erro padrão da estmatva do coefcente é muto grande. Isto mostra que não exste máxmo da função de verossmlhança para o coefcente. Tabela 3. Estmadores de máxma verossmlhança para os coefcentes do modelo de regressão para os dados de cranotoma Programa Coefcente Estmatva -,8546,4599 -,858,632 Erro padrão Estatístca de teste p R - glm 6,24.26,46,6,9874 2,34,26,249,834 Isto ocorre por causa da separação quase-completa que nvablza qualquer tentatva de estmação do coefcente através do método de máxma verossmlhança usual. Como se observa na Fgura 3.2, não há um ponto únco de máxmo para a função de verossmlhança com relação ao coefcente. 2

23 Fgura 3.2 Função de verossmlhança dos dados de cranotoma 3.4 Máxma verossmlhança penalzada Vsando resolver o problema de exstênca dos estmadores de máxma verossmlhança na presença de separação, Henze e Schemper (22) sugerem a modfcação da função escore para a estmação dos coefcentes do modelo de regressão logístca. Orgnalmente, essa proposta fo desenvolvda por Frth (993) buscando reduzr o víco das estmatvas de máxma verossmlhança em modelos lneares generalzados. Ela produz estmatvas fntas para os parâmetros do modelo através da estmação por máxma verossmlhança penalzada. As estmatvas de máxma verossmlhança dos parâmetros da regressão são encontradas soluconando o sstema de equações do vetor escore, como vsto em (3). No entanto, Frth (993) sugere a estmação baseada nas equações escore modfcadas dadas por: * ( ) I U j ( ) U j ( ) + traço I( ) =, j =,..., p +., 2 j 3

24 onde ( ) I é a nversa da matrz de nformação de Fsher avalada em. A função * escore modfcada U j ( ) é relaconada à função de log-verossmlhança penalzada: * l ( ) = l( ) + ln I( ), 2 e à função de verossmlhança penalzada: * L ( ) = L( ) I( ) 2. A função de penalzação I ( ) 2 tem nfluênca, assntotcamente, desprezível. Utlzando esta modfcação, Frth (993) mostrou que o víco das estmatvas de máxma verossmlhança é removdo. Aplcando a déa geral de Frth para o modelo logístco em (), a equação escore em (6) é substtuída pela equação escore modfcada que é dada por: n * U j ( ) = xj y θ j + h θ j =, j =,..., p +, = 2 onde h é o -ésmo elemento da dagonal prncpal de matrz H : H { } 2 T T 2 = W X ( X WX ) X W e W dag θj ( θj ) =. As estmatvas podem ser obtdas teratvamente pelo método usual até a convergênca ser obtda: onde () s se refere à s -ésma teração. ( ) ( ) ( ) * ( s+ ) ( s) ( s) s = + I U, Três pacotes do R mplementam a estmatva de máxma verossmlhança penalzada: o logstf, o brlr e o brglm. Todos eles corrgem o víco de estmação dos coefcentes do modelo de regressão logístca, porém há algumas dferenças báscas. O brglm pode ser utlzado em modelos com outras funções de lgação, além do logt, e anda é mas efcente computaconalmente. O pacote estatístco Statstcal Analyss System (SAS) desenvolvdo pelo SAS Insttut Inc. (Cary, 985) também mplementa a estmatva de máxma verossmlhança penalzada. 4

25 Capítulo 4 Estatístca bayesana para o modelo de regressão logístca Neste capítulo, faremos uma breve descrção de alguns métodos bayesanos de nferênca e construremos uma dstrbução a pror, va análse Bayes-empírca, para os parâmetros do modelo logístco. 4. O método bayesano Usando a abordagem bayesana, ncalmente devemos elcar a dstrbução a pror para o vetor de coefcentes, a qual será denotada por π ( ). As dstrbuções a pror obtdas a partr de π ( ) devem refletr o conhecmento prévo do pesqusador sobre estes coefcentes. A função de verossmlhança do modelo em (), que resume a nformação amostral sobre, atualza tal dstrbução a pror, gerando-se assm uma dstrbução atualzada para. Esta dstrbução é chamada de dstrbução a posteror e é obtda va teorema de Bayes como segue: y π ( x) π ( ) L( ) π ( ) θ ~ n y ( ) θ = A dstrbução a posteror reflete toda ncerteza sobre após a observação dos dados. Resumos desta dstrbução tas como méda, moda, medana e varânca, podem ser obtdos de forma habtual. Com podemos, também, realzar testes de hpóteses e ntervalos de credbldade. Neste caso, não temos uma dstrbução a posteror com forma fechada. Desta forma, faz-se necessáro utlzarmos métodos numércos ou métodos MCMC (Markov Chan Monte Carlo) para obtermos uma estmatva da dstrbução a posteror e/ou de seus resumos. Neste trabalho, utlzamos o pacote estatístco WnBUGS (Lunn et al., 2) para obtermos amostras das dstrbuções a posteror de nteresse. O WnBUGS utlza métodos MCMC para a geração da amostra da dstrbução a posteror. Um número grande de amostras é gerado a partr de dstrbuções condconas e, após a. 5

26 convergênca ter sdo atngda, temos uma amostra da dstrbução a posteror. A partr desta amostra obtemos os resumos a posteror desejados, tas como, méda, medana, desvo-padrão, ntervalos de credbldade. O WnBUGS também fornece uma estatístca para a comparação de modelos o Crtéro de Informação da função Devance (DIC). Segundo Spegelhalter et al. (22), o DIC é uma generalzação do Crtéro de Informação de Akake (AIC). Assm como o observado para o AIC, um valor pequeno para o DIC ndca boa adequabldade do modelo, ou seja, ndca que ele fornece boas estmatvas para os coefcentes. Os DIC s referentes a dferentes modelos são comparáves somente quando os mesmos dados observados são consderados na análse. Uma vantagem de utlzarmos métodos bayesanos na análse do modelo com separação quase-completa é a possbldade de exstênca de estmadores pontuas para. Mesmo quando a dstrbução a pror é a unforme podemos utlzar a méda ou a medana a posteror como estmadores pontuas, uma vez que, neste caso, a moda a posteror é exatamente o estmador de máxma verossmlhança e, portanto, também não exstrá em stuações de separação. 4.2 Defnção da dstrbução a pror A dstrbução a pror deve refletr o grau de conhecmento ncal do pesqusador sobre os parâmetros do modelo. Quando o pesqusador tem nformação sobre os coefcentes não trazda pelos dados, esta deve ser trazda para a análse através da dstrbução a pror vsando melhorar as estmatvas. Quando não se tem tal nformação, ou se tem e não se deseja utlzar-se dela, uma dstrbução a pror não nformatva deve ser utlzada e, neste caso dexa-se que a função de verossmlhança seja a prncpal responsável por trazer a nformação sobre os coefcentes. Dante do exposto na seção anteror, percebe-se que a especfcação da dstrbução a pror tem um papel fundamental no estudo do Modelo de Regressão Logístca com separação. Galndo-Garre, Vermunt, e Bergsma (24) afrmaram que, assumndo que não há nformação préva sobre a dependênca entre os parâmetros do modelo, é convenente assumr ndependênca entre os coefcentes e adotar dstrbuções a pror normas unvaradas para cada um deles. Eles utlzaram estatístca bayesana para suavzar as estmatvas dos parâmetros da regressão logístca, assumndo váras 6

27 dstrbuções a pror para estes parâmetros. As dstrbuções utlzadas foram: normas unvaradas, Drchlet, Jeffreys e Clogg-Elasson. Congdon (2) sugere o uso de dstrbuções normas com méda zero e varânca grande. Greenland (2) afrma que dstrbução a pror e verossmlhança podem ser aproxmadas por normas multvaradas em casos de grandes amostras mas afrma que, no caso de dados esparsos, tas aproxmações podem ser nadequadas. Neste caso, ele recomenda análse conjugada exata. Neste trabalho, utlzaremos a abordagem de Galndo-Garre, Vermunt, e Bergsma (24), ou seja, assumremos ndependênca entre os coefcentes e adotaremos dstrbuções a pror normas unvaradas para cada um deles. Também utlzaremos a dstrbução a pror empírca que ntroduzremos na próxma seção Análse de Bayes-empírca Segundo Paulno, Turkman e Murtera (23), a análse de Bayes-empírca utlza os dados para especfcar a dstrbução a pror e, posterormente, utlza a análse bayesana. Isso a torna uma tercera va entre os paradgmas bayesano e frequentsta, e, como tal, tem sdo rejetada ou, pelo menos, secundarzada pela grande maora dos adeptos da Escola Bayesana. Entretanto, a análse Bayes-empírca tem permtdo ultrapassar as dfculdades de análses ntegralmente bayesanas de problemas complexos e produzdo estmadores com boas propredades frequentstas. Voltando ao nosso problema, segundo Tsutakawa e Ln (986), é mas fácl obtermos nformações a pror sobre a probabldade de sucesso E( Y x ) = θ e, consequentemente, sera mas fácl elcarmos a dstrbução a pror sobre tal probabldade, do que obtermos algum conhecmento a pror sobre que é um objeto que, em geral, não tem sgnfcado prátco. O método sugerdo por Bedrck, Chrstensen e Johnson (996) envolve elcar a dstrbução a pror para respostas médas correspondentes aos valores observados das covaráves e, a partr desta dstrbução ncal, nduzr a uma dstrbução a pror para os coefcentes da regressão. 7

28 Como θ é uma probabldade, portanto θ, podemos assumr que, ndependentemente, cada θ Beta a, a ), sto é, ( 2 π ( θ ) p = θ a a2 ( θ ) Estas ndependentes dstrbuções a pror médas condconas nduzem às seguntes dstrbuções a pror para os coefcentes : π p ' a ' a ' F( ~ x F( ~ x f ( ~ 2 ( ) ) [ )] x ) = onde F (.) é a função de dstrbução de probabldade com função de densdade de probabldade f (.). Para o modelo logístco, f (.) = F(.)( F(.)). A déa do Bayes-empírco é escolher alguns pontos, ou seja, confgurações de valores das varáves do problema, e atrbur uma probabldade de ocorrênca a cada confguração seleconada. O número de pontos escolhdos deve ser gual ao número de coefcentes do modelo e sua escolha deve ser feta com base nos valores que ocorrem com maor freqüênca. A probabldade de ocorrênca de cada conjunto de pontos deve ser defnda de forma a refletr o conhecmento a pror que o pesqusador tem sobre o assunto e deve ser dferente o sufcente para garantr a ndependênca das probabldades de cada ponto seleconado. E( ) = A méda da probabldade de ocorrênca de cada conjunto de pontos é a θ e, através do seu valor, defndo pelo pesqusador, encontra-se a a + a2. relação entre a e a 2. Defndos os valores de a e a 2, obtém-se as dstrbuções a pror beta para os θ e, a partr destas, encontram-se dstrbuções a pror beta para os coefcentes do modelo,. Neste trabalho, aproxmações das dstrbuções a posteror de utlzando-se o WnBUGS. são obtdas 8

29 Capítulo 5 Resultados Neste capítulo, analsaremos o banco de dados de pacentes submetdos à cranotoma, descrto no Capítulo 2, utlzando os estmadores de máxma verossmlhança penalzada. Utlzaremos o método bayesano com dstrbuções a pror normas para três conjuntos de dados, um deles gerado com superposção, outro com separação quasecompleta e outro de pacentes submetdos à cranotoma. Posterormente, utlzaremos a análse Bayes-empírca para os dados de cranotoma. Para a análse dos dados, consderamos os pacotes estatístcos R e SAS e, para a análse va métodos bayesanos, utlzamos o WnBugs. 5. Estmação por máxma verossmlhança penalzada Utlzando os dados do exemplo de cranotoma, foram estmados os coefcentes do modelo de regressão logístca utlzando máxma verossmlhança penalzada. Os resultados são mostrados na Tabela 5.. Tabela 5. Resultados da estmação por máxma verossmlhança penalzada para cada programa I.C. de 95% Programa Coefcente Estmatva Erro padrão Lmte nferor Lmte superor Estatístca de teste p -6,428,766-9,4878-2, <, SAS 2,689,5294 -,4739 7,2 -,4 2,35655,2377 -,2885, ,373-6,428, ,599,39 R - brglm 2,689, ,48,5664 2,3565, ,5,3362-6,428,766 -,2652-3, ,837 <, R - logstf 2,689,5294 -,4739 7,2 2,5337,44 2,3565,2377 -,289,8856 2,277,

30 Através dos coefcentes estmados pelos modelos no SAS, no brglm e no logstf, verfcamos que as covaráves não são sgnfcatvas para o modelo. Isto é, a gravdade do caso do pacente que realzou cranotoma e o tempo de duração da sua crurga (em horas) não nfluencam na ocorrênca de menngte. 5.2 Análse bayesana com dstrbução a pror normal Nesta seção, utlzaremos dos bancos de dados gerados a partr do modelo de regressão logístca. Um deles na stuação de superposção e outro na stuação de separação quase-completa. Vamos estudar a especfcação da dstrbução a pror normal na estmação dos coefcentes, através da dstrbução a posteror, comparando com os verdaderos valores dos parâmetros. Além dsto, estudaremos a especfcação da dstrbução a pror normal na estmação dos coefcentes da regressão usando o banco de dados de pacentes submetdos à cranotoma. Comparamos também os resultados com as estmatvas de máxma verossmlhança penalzada Análse dos dados gerados Incalmente, geramos dos bancos de dados, de tamanho, a partr do modelo em (), assumndo que Y e X são varáves dcotômcas. Para este fm, assummos = 3 e = 5. No prmero deles, assummos superposção e no outro consderamos uma stuação com separação quase-completa. Note que os valores assumdos para os parâmetros, levam à zero a probabldade condconal de que Y =, dado x =, sto é, P Y = x. tem-se que [ = ] Para a análse bayesana, consderamos dferentes dstrbuções a pror normas unvaradas para e ambas centradas em zero e no verdadero valor do parâmetro e com as varâncas varando entre e.. Isto é, defnmos dstrbuções a pror mas e menos nformatvas e temos como objetvo avalar a nfluênca destas especfcações nas estmatvas a posteror. 2

31 5.2.. Stuação de superposção Os dados gerados na stuação de superposção são mostrados na Tabela 5.2. Tabela Tabela de contngênca de Y versus X gerados na stuação de superposção Y X Total Total Para este caso, as estmatvas de máxma verossmlhança são ˆ = 3, 892 e ˆ = 6,334 com erros padrão das estmatvas de, e,37, respectvamente. As estmatvas de máxma verossmlhança penalzada são ˆ = 3, 497 e ˆ = 5, 832 com erros padrão das estmatvas de,837 e,974, respectvamente. As estmatvas de máxma verossmlhança penalzada são mas próxmas dos valores reas ( = 3 e = 5 ) e tem erros-padrão menores que as estmatvas de máxma verossmlhança. A Tabela 5.3 mostra a méda e a medana e também o desvo padrão a posteror para e para váras especfcações de dstrbuções a pror. Notamos que, entre os modelos com dstrbuções a pror centradas em zero, ou seja, em que, a pror, não se está estmando bem os parâmetros (já que = 3 e 5 ), as melhores estmatvas = (méda e medana) são obtdas quando assummos uma dstrbução a pror com varânca. Este modelo é o que tem as estmatvas mas próxmas das estmatvas de máxma verossmlhança penalzada ( ˆ = 3, 497 e ˆ = 5, 832 ). Apesar dsto, o DIC aponta como o melhor modelo aquele em que a dstrbução a pror tem varânca 25. Nota-se anda que o modelo ndcado pelo DIC fo o que forneceu estmatvas dos coefcentes mas próxmas das estmatvas de máxma verossmlhança ( ˆ = 3, 892 e ˆ = 6, 334 ). É perceptível também que, exceto nos casos em que a dstrbução a pror é muto 2

32 concentrada em torno de zero, as estmatvas a posteror tendem a subestmar e superestmar. Nos casos onde as dstrbuções a pror revelam grande ncerteza ncal sobre os parâmetros, a subestmação e a superestmação são anda maores. Acontece a mesma cosa com os desvos padrão das estmatvas. Quanto maor a ncerteza da dstrbução a pror maor fca a ncerteza a posteror. Como esperado, quando comparamos os modelos com dstrbuções a pror centradas nos verdaderos valores dos parâmetros, as estmatvas a posteror são melhores quando a certeza a pror é grande. Isto também fo o ndcado pelo DIC, que fo menor para modelo com a varânca. Este também é o melhor modelo ajustado e fo o que produzu as melhores estmatvas para os parâmetros. Note que, neste caso, é subestmado e é superestmado. Tabela Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados na stuação superposção. Resultados a posteror para Resultados a posteror para Dstrbução a pror Méda (desvo padrão) Medana Méda (desvo padrão) Medana DIC N(;) -,93 (,3669) -,94 3,688 (,493) 3,684 5,67 N(;) -3,474 (,7892) -3,386 5,862 (,92) 5,78 4,54 N(;25) -3,894 (,9683) -3,787 6,372 (,99) 6,263 4,423 N(;) -4,424 (,268) -4,2 6,955 (,365) 6,84 4,783 N(parâmetro;) -3,33 (,5337) -3,28 5,655 (,666) 5,654 4,753 N(parâmetro;25) -4,237 (,74) -4,6 6,776 (,97) 6,673 4, Stuação de separação quase-completa Os dados gerados na stuação de separação quase-completa são mostrados na Tabela

33 Tabela Tabela de contngênca de Y versus X gerados na stuação de separação quase-completa Y X Total Total Neste caso, não exstem as estmatvas de máxma verossmlhança. As estmatvas de máxma verossmlhança penalzada são ˆ = 4, 65 e ˆ = 7, 223 com erros padrão das estmatvas de,435 e,54, respectvamente. Perceba que há uma subestmação de e superestmação de. Na análse bayesana (Tabela 5.5), percebemos que, salvo para o caso em que a dstrbução a pror para ambos os parâmetros é uma normal padrão, a qual fornece as melhores estmatvas, em todos os outros casos há uma subestmação de e superestmação de. Da mesma forma que observamos no caso com superposção, quanto maor a varânca a pror menor a estmatva de e maor a estmatva de. No entanto, como mostrado na Tabela 5.5, quando aumentamos a varânca a pror o DIC dmnu levando-nos a avalações contradtóras. Pelo DIC, concluímos que quanto menos nformatvas são as dstrbuções a pror, melhor o ajuste do modelo. Mas observem que as estmatvas e seus desvos padrão aumentam muto conforme defnmos dstrbuções a pror menos nformatvas. Perceba que, quando a varânca a pror tende para nfnto os estmadores bayesanos também crescem muto. Ou seja, quando escolhemos uma dstrbução a pror não nformatva, esta é domnada pelos dados, os quas dão a maor contrbução no cálculo da dstrbução a posteror. Comparando os resultados bayesanos com as estmatvas de máxma verossmlhança penalzada, verfcamos que a análse bayesana forneceu melhores resultados, exceto com o modelo centrado no valor do parâmetro e com varânca maor. 23

34 Tabela Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados com separação quase-completa. Resultados a posteror para Resultados a posteror para Dstrbução a pror Méda (desvo padrão) Medana Méda (desvo padrão) Medana DIC N(;) -2,53 (,3852) -2,29 3,98 (,569) 3,99 4,8 N(;) -4,23 (,63) -4,28 6,97 (,56) 6,89 27,65 N(;25) -5,47 (,63) -5,9 8,82 (,733) 7,957 26,348 N(;) -8,68 (,26) -7,28 2,59 (,3) 2,4 24,96 N(parâmetro;) -3,539 (,5756) -3,56 6,7 (,6589) 6,75 28,22 N(parâmetro;25) -6,458 (2,69) -6,5 9,25 (2,64) 8,872 25, Pacentes submetdos à cranotoma Os dados do exemplo publcado em Colosmo, Franco e Couto (995) foram apresentados na Tabela 2.2. Cruzando a resposta presença de menngte com a covarável gravdade do pacente percebeu-se que há separação quase-completa neste bando de dados. Também aqu foram realzadas análses bayesanas utlzando dstrbuções a pror normas com méda zero e varâncas dferentes para os coefcentes do modelo, como mostrado na Tabela 5.6. Como esperado, verfcamos que quando utlzamos dstrbuções a pror menos nformatvas, as estmatvas e seus desvos padrão tendem para nfnto. Além dsto, os valores dos DIC s dmnuem cada vez mas. As dstrbuções a posteror que fcaram com as médas mas próxmas das estmatvas por máxma verossmlhança penalzada são as que tveram as dstrbuções a pror com varânca 25 para com varânca para. 24

35 Tabela Estmatvas de parâmetros dos coefcentes da regressão logístca para dados de cranotoma. Resultados a posteror para Resultados a posteror para Dstrbução a pror Méda (desvo padrão) Medana Méda (desvo padrão) Medana DIC N(;,) -,489 (,26) -,486 -,2364 (,274) -,229 5,89 N(;,5) -2,542 (,3582) -2,526,572 (,59), ,998 N(;) -3,9 (,4559) -2,984,3755 (,657),396 29,65 N(;4) -4,4 (,766) -4,22,485 (,9787),462 25,858 N(;) -5,29 (,59) -4,93 2,425 (,294) 2,363 24,56 N(;25) -6,75 (,73) -5,925 3,596 (,833) 3,4 23,663 N(;5) -7,352 (2,43) -7,8 4,76 (2,476) 4,48 23,275 N(;) -9,236 (3,727) -8,538 6,735 (3,76) 6,77 22,927 N(;4) -5,64 (8,24) -3,99 3, (8,227),7 22,57 N(;7) -9,99 (,34) -7,74 7,47 (,35) 5,3 22,54 N(;) -2,84 (3,7) -9,3 9,34 (3,9) 6,59 22,48 Os gráfcos da Fgura 5. mostram os valores das estmatvas de, e também os valores dos DIC s para cada dstrbução a pror varando os valores da varânca a pror. 25

36 Fgura 5. - Gráfcos das estmatvas de, e DIC para modelos com dstrbuções a pror normas com méda zero e város valores para a varânca. 5.3 Análse usando dstrbuções a pror Bayes-empírca Como vsto na seção anteror, o problema para estmar os coefcentes da regressão na presença de separação pode ser sanado se exstr uma quantdade razoável de nformação ncal que gere alguma dstrbução a pror bastante nformatva. Caso esta nformação seja escassa, o que nos levara a elcar uma dstrbução a pror não nformatva, o problema de estmação dos parâmetros do modelo logístco permanecera. 26

37 Ou seja, o enfoque bayesano para este tpo de problema poderá levar a uma solução adequada apenas em stuações muto partculares em que a nformação a pror exsta e seja forte o bastante para não ser tão nfluencada pela nformação trazda pelos dados, o que não acontece em mutos casos. Dante deste problema uma alternatva que pode ser atratva é o uso de métodos bayesanos empírcos para a construção da dstrbução a pror para os parâmetros do modelo logístco. No que segue, fo utlzada a análse de Bayes-empírca para os dados do exemplo de cranotoma. Para construr a dstrbução a pror para os parâmetros do modelo logístco, dgo, foram especfcadas, subjetvamente, as dstrbuções a pror beta para os θ, ou seja, assumu-se que θ Beta ( a, a2), e foram seleconados três pontos dstntos x, ) do conjunto de dados, a saber, ( x =, x = 2 2 ), x =, x 3) e ( x 2 ( 2 = ( x =, x2 = ). Estes pontos foram seleconados por serem representatvos em relação ao conjunto de dados. Aqu, também, tem-se como objetvo avalar a nfluênca das especfcações a pror nas nferêncas a posteror. A Tabela 5.7 mostra as 9 especfcações a pror para θ que serão consderadas neste estudo. Note que alguns destes casos pressupõem a exstênca de muta nformação a pror gerando dstrbuções a pror muto nformatvas para cada θ Caso, por exemplo e outros a quase nexstênca de uma nformação a pror Caso 6, por exemplo o que nos leva a construr dstrbuções pouco nformatvas para cada θ. Das dstrbuções a pror beta para os θ, foram encontradas as dstrbuções a pror para os coefcentes. O mesmo procedmento fo realzado com outros três pontos seleconados para o mesmo conjunto de dados. São eles: ( x =, x = 2 8), ( 2 = x =, x 3) e x =, x ). Nestes casos, foram consderadas as mesmas ( 2 = dstrbuções a pror para cada θ mostradas na Tabela

38 Tabela 5.7 Dstrbuções a pror para cada θ. Caso θ a a 2 Caso θ a a 2 Caso θ a a 2 θ 2 98 θ 2 98 θ 2 98 θ θ 2,,9 7 θ θ θ θ 3,, θ, 9,9 θ, 9,9 θ 2 θ 2,,9 5 θ θ 2,,9 θ 3 θ θ 3 θ 2 98 θ θ, 9,9 3 θ θ 2 9 θ 2 θ 3 θ 3 θ 3 Para se ter uma déa do efeto destas escolhas a pror para os θ e dos pontos seleconados da amostra nas dstrbuções a pror de, hstogramas foram construídos para as dstrbuções a pror de cada, assm como foram avaladas suas médas e varâncas de acordo com as escolhas dos valores de a e a 2. As Fguras 5.2 a 5.4 mostram exemplos dos casos, 2 e 6 para a prmera escolha de pontos ( x =, x2 = 2), ( 2 = x =, x 3) e x =, x ). O caso é um caso onde as dstrbuções a pror são ( 2 = mas nformatvas para todos os. No caso 2, já exste bastante nformação a pror para e também para, mas menos nformação a pror sobre os 2, usando, neste caso, a dstrbução unforme. No caso 6, utlzamos a dstrbução a pror unforme para todos os. Verfcamos que o coefcente 2 sempre tem a dstrbução mas concentrada. As dstrbuções a pror para e, no caso 2, fcaram com uma grande varabldade. 28

39 Fgura 5.2 Hstogramas das dstrbuções a pror para, e 2 no caso Fgura 5.3 Hstogramas das dstrbuções a pror para, e 2 no caso 2 29

40 Fgura 5.4 Hstogramas das dstrbuções a pror para, e 2 no caso 6 A Tabela 5.8 mostra as médas e varâncas para as dstrbuções a pror para nos casos, 2 e 6. Veja que a dstrbução a pror do caso tem os resultados mas próxmos das estmatvas de máxma verossmlhança penalzada ( =-6,4, =2,7 e 2 =,36). Tabela 5.8 Resultados das dstrbuções a pror para, e 2 nos casos,2 e 6 2 Caso Resultados Caso Méda -5,5277 2,2562,326 Varânca,768,9844,39 Caso 2 Méda -5,364,637,373 Varânca 8,5 235,64 2,63 Caso 6 Méda,24 -,58 -,7 Varânca 3,759 7,5926,324 Consderando as dstrbuções a pror para os, utlzamos o WnBUGS para obter as dstrbuções a posteror para estes coefcentes. Um total de. terações para cada caso fo consderado e, após a convergênca ter sdo atngda, as. prmeras nterações foram descartadas como período de burn-n de.. Algumas 3

41 meddas das dstrbuções a pror para médas, os desvos padrão, as medanas e os DIC s. são mostradas na Tabela 5.9. São elas as Tabela 5.9 Resumos a posteror de para os 9 casos e para cada conjunto de pontos seleconados. (X =, X 2=2), (X =, X 2=3) e (X =, X 2=) (X =, X 2=8), (X =, X 2=3) e (X =, X 2=) desvo desvo Caso méda padrão medana DIC méda padrão medana DIC -4,887,826-4,849-6,4,86-5,98 2,288,596 2,285 2,464,98 2,396 2,332,4,33 5,7,52,9,49 8,2-2,36 5,35 -,3-6,68,2-3,75 6,979 5,42 5,65,49,9 8, ,485,244,47 5,3,59,25,492 5,23-3,79,882-3,67-5,832,98-5,755,235,82,26 2,493,92 2, ,264,62,269 6,6 -,32,32 -,33 2,37-9,54,73-9,6-6,36,955-6,269 3,695,946 3,642,695,84,69 4 2,445,54,436 6,5,538,96,59 4,44-4,532,725-4,49-6,,4-3,4,93,723,96 2,37,4 9, ,35,8,349 4,4,36,6,34 9,7-6,33,393-5,999-5,87,498-5,699,649,66,644 2,255,442 2, 6 2,285,88,284 7,93,53,2,59 8,96-3,65,852-3,4-5,625,986-5,559,588,955,64 2,527,932 2, ,8,22,94 6,85 -,32,4 -,32 22,42-7,7,944-7,489-6,29,582-6,4,375,5,288,788,57, ,367,29,362 7,5,65,255,63 7,76-6,63,7-6,452-6,,7-3,5 2,66,44 2,4 2,8,6 9, 9 2,359,24,354 5,25,369,24,362 6,45 3

42 As médas das dstrbuções a posteror em alguns casos são bem dferentes que em outros e em alguns casos o desvo padrão fo muto grande. O menor DIC para a prmera escolha de pontos fo o do caso 5, o qual teve desvos padrão elevados para e, assm como os valores das médas e medanas. Para a segunda escolha de pontos, o menor DIC fo o do caso 4. Intervalos de credbldade percentílcos para os coefcentes foram construídos e são mostrados na Fgura 5.5. Veja que nos casos 2, 5 e 9 do prmero conjunto de pontos os ntervalos para fcaram muto grandes. Já no segundo conjunto de pontos, o ntervalo para do caso 2 é que fcou muto grande, embora não tanto quanto os ntervalos do prmero conjunto de pontos. Quando observamos a prmera escolha de pontos, verfcamos novamente os mesmos casos 2, 5 e 9 nos quas os ntervalos para também fcaram muto grandes. E, verfcamos novamente que, no caso 2, o ntervalo para fcou grande para a segunda escolha de pontos. Verfcamos anda que os ntervalos de credbldade para 2 se comportam bem para todos os casos. Ou seja, parece que ele não é sensível à especfcação das dstrbuções a pror. O coefcente 2 é o coefcente da varável X 2, tempo de crurga, que não está assocado à covarável que gera a separação. No prmero conjunto de pontos, as pores stuações, sto é, os ntervalos muto grandes, estão assocadas à falta de nformação para θ, com uma dstrbução a pror beta (,; 9,9). No segundo conjunto de pontos, o ntervalo grande também está no caso 2 que tem a mesma dstrbução para θ. Parece então que o problema é a defnção da beta (,; 9,9) como dstrbução a pror para θ. Até quando utlzamos a dstrbução unforme, beta (; ), para θ não ocorreu este problema. 32

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE

ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE Dssertação apresentada à Unversdade Federal de Vçosa, como parte das exgêncas do Programa de Pós-Graduação

Leia mais

3 A técnica de computação intensiva Bootstrap

3 A técnica de computação intensiva Bootstrap A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS 1 A análse de dagnóstco (ou dagnóstco do ajuste) confgura uma etapa fundamental no ajuste de modelos de regressão. O objetvo prncpal da análse de dagnóstco

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

4 Critérios para Avaliação dos Cenários

4 Critérios para Avaliação dos Cenários Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação

Leia mais

AULA EXTRA Análise de Regressão Logística

AULA EXTRA Análise de Regressão Logística 1 AULA EXTRA Análse de Regressão Logístca Ernesto F. L. Amaral 13 de dezembro de 2012 Metodologa de Pesqusa (DCP 854B) VARIÁVEL DEPENDENTE BINÁRIA 2 O modelo de regressão logístco é utlzado quando a varável

Leia mais

Testes não-paramétricos

Testes não-paramétricos Testes não-paramétrcos Prof. Lorí Val, Dr. http://www.mat.ufrgs.br/val/ val@mat.ufrgs.br Um teste não paramétrco testa outras stuações que não parâmetros populaconas. Estas stuações podem ser relaconamentos,

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas 3.6. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

Estatística Espacial: Dados de Área

Estatística Espacial: Dados de Área Estatístca Espacal: Dados de Área Dstrbução do número observado de eventos Padronzação e SMR Mapas de Probabldades Mapas com taxas empírcas bayesanas Padronzação Para permtr comparações entre dferentes

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

Análise de Variância. Comparação de duas ou mais médias

Análise de Variância. Comparação de duas ou mais médias Análse de Varânca Comparação de duas ou mas médas Análse de varânca com um fator Exemplo Um expermento fo realzado para se estudar dabetes gestaconal. Desejava-se avalar o comportamento da hemoglobna (HbA)

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso de Admnstração em Gestão Públca Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos uns dos

Leia mais

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES 1. Obtenha os estmadores dos coefcentes lnear e angular de um modelo de regressão lnear smples utlzando o método

Leia mais

REGRESSÃO NÃO LINEAR 27/06/2017

REGRESSÃO NÃO LINEAR 27/06/2017 7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

Métodos Avançados em Epidemiologia

Métodos Avançados em Epidemiologia Unversdade Federal de Mnas Geras Insttuto de Cêncas Exatas Departamento de Estatístca Métodos Avançados em Epdemologa Aula 5-1 Regressão Lnear Smples: Estmação e Interpretação da Reta Tabela ANOVA e R

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária. Modelagem multvarável com varáves quanttatvas e qualtatvas, com resposta bnára. O modelo de regressão não lnear logístco ou modelo logístco é utlzado quando a varável resposta é qualtatva com dos resultados

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso Superor de tecnólogo em Gestão Ambental Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos

Leia mais

3. Estatística descritiva bidimensional

3. Estatística descritiva bidimensional 3. Estatístca descrtva bdmensonal (Tabelas, Gráfcos e números) Análse bvarada (ou bdmensonal): avala o comportamento de uma varável em função da outra, por exemplo: Quantas TV Phlps são venddas na regão

Leia mais

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Capítulo 1. Exercício 5. Capítulo 2 Exercício UNIVERSIDADE FEDERAL DE GOIÁS CIÊNCIAS ECONÔMICAS ECONOMETRIA (04-II) PRIMEIRA LISTA DE EXERCÍCIOS Exercícos do Gujarat Exercíco 5 Capítulo Capítulo Exercíco 3 4 5 7 0 5 Capítulo 3 As duas prmeras demonstrações

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

Variável discreta: X = número de divórcios por indivíduo

Variável discreta: X = número de divórcios por indivíduo 5. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

ALGORITMOS PARA DADOS AUMENTADOS

ALGORITMOS PARA DADOS AUMENTADOS ALGORITMOS PARA DADOS AUMNTADOS. INTRODUÇÃO Dos algortmos baseados na consderação de dados latentes. Temos os dados efetvamente observados e de uma manera convenente aumentamos esses dados ntroduzndo os

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco

Leia mais

2 Metodologia de Medição de Riscos para Projetos

2 Metodologia de Medição de Riscos para Projetos 2 Metodologa de Medção de Rscos para Projetos Neste capítulo remos aplcar os concetos apresentados na seção 1.1 ao ambente de projetos. Um projeto, por defnção, é um empreendmento com metas de prazo, margem

Leia mais

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um). INTRODUÇÃO À PROILIDDE teora das probabldade nada mas é do que o bom senso transformado em cálculo probabldade é o suporte para os estudos de estatístca e expermentação. Exemplos: O problema da concdênca

Leia mais

Análise de Regressão Linear Múltipla IV

Análise de Regressão Linear Múltipla IV Análse de Regressão Lnear Múltpla IV Aula 7 Guarat e Porter, 11 Capítulos 7 e 8 He et al., 4 Capítulo 3 Exemplo Tomando por base o modelo salaro 1educ anosemp exp prev log 3 a senhorta Jole, gerente do

Leia mais

Cap. 5 Classificação Temática

Cap. 5 Classificação Temática Prncípos e Aplcações da Deteção Remota Cap. 5 Classfcação Temátca 5.1 O Processo de Classfcação 5. Classfcação de Máxma Verosmlhança (supervsonada paramétrca) 5..1 Classes multvaradas normas 5.. Lmtes

Leia mais

3 Algoritmos propostos

3 Algoritmos propostos Algortmos propostos 3 Algortmos propostos Nesse trabalho foram desenvolvdos dos algortmos que permtem classfcar documentos em categoras de forma automátca, com trenamento feto por usuáros Tas algortmos

Leia mais

Teoria Elementar da Probabilidade

Teoria Elementar da Probabilidade 10 Teora Elementar da Probabldade MODELOS MATEMÁTICOS DETERMINÍSTICOS PROBABILÍSTICOS PROCESSO (FENÓMENO) ALEATÓRIO - Quando o acaso nterfere na ocorrênca de um ou mas dos resultados nos quas tal processo

Leia mais

Análise de Regressão

Análise de Regressão Análse de Regressão método estatístco que utlza relação entre duas ou mas varáves de modo que uma varável pode ser estmada (ou predta) a partr da outra ou das outras Neter, J. et al. Appled Lnear Statstcal

Leia mais

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade

Leia mais

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES Capítulo. Aproxmações numércas 1D em malhas unformes 9 Capítulo. AROXIMAÇÕS NUMÉRICAS 1D M MALHAS UNIFORMS O prncípo fundamental do método das dferenças fntas (MDF é aproxmar através de expressões algébrcas

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

ANÁLISE DAS TENSÕES TÉRMICAS EM MATERIAIS CERÂMICOS. Palavras-chave: Tensões térmicas, Propriedades variáveis, Condução de calor, GITT

ANÁLISE DAS TENSÕES TÉRMICAS EM MATERIAIS CERÂMICOS. Palavras-chave: Tensões térmicas, Propriedades variáveis, Condução de calor, GITT ANÁLISE DAS TENSÕES TÉRMICAS EM MATERIAIS CERÂMICOS Dnz, L.S. Santos, C.A.C. Lma, J.A. Unversdade Federal da Paraíba Laboratóro de Energa Solar LES/DTM/CT/UFPB 5859-9 - João Pessoa - PB, Brasl e-mal: cabral@les.ufpb.br

Leia mais

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear normal com erros heterocedástcos O método de mínmos quadrados ponderados Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Gráficos de Controle para Processos Autocorrelacionados

Gráficos de Controle para Processos Autocorrelacionados Gráfcos de Controle para Processos Autocorrelaconados Gráfco de controle de Shewhart: observações ndependentes e normalmente dstrbuídas. Shewhart ao crar os gráfcos de controle não exgu que os dados fossem

Leia mais

(1) A uma parede totalmente catalítica quanto para uma parede com equilíbrio catalítico. No caso de uma parede com equilíbrio catalítico, tem-se:

(1) A uma parede totalmente catalítica quanto para uma parede com equilíbrio catalítico. No caso de uma parede com equilíbrio catalítico, tem-se: 1 RELATÓRIO - MODIFICAÇÃO DA CONDIÇÃO DE CONTORNO DE ENTRADA: MODELOS PARCIALMENTE CATALÍTICO E NÃO CATALÍTICO PARA ESCOAMENTOS COM TAXA FINITA DE REAÇÃO 1. Condções de contorno Em escoamentos reatvos,

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Leia mais

Inferência Estatística e Aplicações II. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP

Inferência Estatística e Aplicações II. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP Inferênca Estatístca e Aplcações II Edson Zangacom Martnez Departamento de Medcna Socal FMRP/USP edson@fmrp.usp.br Métodos Bayesanos Edson Zangacom Martnez Cênca Hoje, julho de 2006 Thomas Bayes Thomas

Leia mais

CURSO de ESTATÍSTICA Gabarito

CURSO de ESTATÍSTICA Gabarito UNIVERSIDADE FEDERAL FLUMINENSE TRANSFERÊNCIA o semestre letvo de 010 e 1 o semestre letvo de 011 CURSO de ESTATÍSTICA Gabarto INSTRUÇÕES AO CANDIDATO Verfque se este caderno contém: PROVA DE REDAÇÃO com

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíves resultados de um expermento. Evento é qualquer subconjunto do espaço amostral. Evento combnado: Possu duas ou

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira UNIVERSIDADE DE PERNAMBUCO ESCOLA POLITÉCNICA DE PERNAMBUCO Físca Expermental Prof o José Wlson Vera wlson.vera@upe.br AULA 01: PROCESSOS DE ANÁLISE GRÁFICA E NUMÉRICA MODELO LINEAR Recfe, agosto de 2015

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

Análise de Regressão Linear Múltipla VII

Análise de Regressão Linear Múltipla VII Análse de Regressão Lnear Múltpla VII Aula 1 Hej et al., 4 Seções 3. e 3.4 Hpótese Lnear Geral Seja y = + 1 x 1 + x +... + k x k +, = 1,,..., n. um modelo de regressão lnear múltpla, que pode ser escrto

Leia mais

Implementação Bayesiana

Implementação Bayesiana Implementação Bayesana Defnção 1 O perfl de estratégas s.) = s 1.),..., s I.)) é um equlíbro Nash-Bayesano do mecansmo Γ = S 1,..., S I, g.)) se, para todo e todo θ Θ, u gs θ ), s θ )), θ ) θ Eθ u gŝ,

Leia mais

4.1 Modelagem dos Resultados Considerando Sazonalização

4.1 Modelagem dos Resultados Considerando Sazonalização 30 4 METODOLOGIA 4.1 Modelagem dos Resultados Consderando Sazonalzação A sazonalzação da quantdade de energa assegurada versus a quantdade contratada unforme, em contratos de fornecmento de energa elétrca,

Leia mais

Jogos. Jogos. Jogo. Jogo. Óptimo alvo investigação

Jogos. Jogos. Jogo. Jogo. Óptimo alvo investigação Jogos Óptmo alvo nvestgação O seu estado é fácl de representar; As acções são bem defndas e o seu número lmtado; A presença de oponentes ntroduz ncerteza tornando o problema de decsão mas complcado. Estamos

Leia mais

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO Unversdade Federal de São Carlos Centro de Cêncas Exatas e de Tecnologa Departamento de Estatístca UMA FAMÍLIA DE MODELOS DE REGRESSÃO COM A DISTRIBUIÇÃO ORIGINAL DA VARIÁVEL RESPOSTA Marcelo de Paula

Leia mais

U N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA

U N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA U N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A CLASSIFICAÇÃO DE MONOGRAFIAS UMA PROPOSTA PARA MAIOR OBJECTIVIDADE ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA

Leia mais

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro. Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na

Leia mais

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO Alne de Paula Sanches 1 ; Adrana Betâna de Paula Molgora 1 Estudante do Curso de Cênca da Computação da UEMS, Undade Unverstára de Dourados;

Leia mais

Análise Descritiva com Dados Agrupados

Análise Descritiva com Dados Agrupados Análse Descrtva com Dados Agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas descrtvas

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas

Leia mais

6 Modelo Proposto Introdução

6 Modelo Proposto Introdução 6 Modelo Proposto 6.1. Introdução Neste capítulo serão apresentados detalhes do modelo proposto nesta dssertação de mestrado, onde será utlzado um modelo híbrdo para se obter prevsão de carga curto prazo

Leia mais

AULA Espaços Vectoriais Estruturas Algébricas.

AULA Espaços Vectoriais Estruturas Algébricas. Note bem: a letura destes apontamentos não dspensa de modo algum a letura atenta da bblografa prncpal da cadera Chama-se a atenção para a mportânca do trabalho pessoal a realzar pelo aluno resolvendo os

Leia mais

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PRESSUPOSTOS DO MODELO DE REGRESSÃO PREUPOTO DO MODELO DE REGREÃO A aplcação do modelo de regressão lnear múltpla (bem como da smples) pressupõe a verfcação de alguns pressupostos que condensamos segudamente.. Os erros E são varáves aleatóras

Leia mais

EXERCÍCIO: VIA EXPRESSA CONTROLADA

EXERCÍCIO: VIA EXPRESSA CONTROLADA EXERCÍCIO: VIA EXPRESSA CONTROLADA Engenhara de Tráfego Consdere o segmento de va expressa esquematzado abaxo, que apresenta problemas de congestonamento no pco, e os dados a segur apresentados: Trechos

Leia mais

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 )

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 ) DIGRM OX-PLOT E CRCTERIZÇÃO DE OUTLIERS E VLORES EXTREMOS Outlers e valores extremos são aqueles que estão muto afastados do centro da dstrbução. Uma forma de caracterzá-los é através do desenho esquemátco

Leia mais

DELINEAMENTOS EXPERIMENTAIS

DELINEAMENTOS EXPERIMENTAIS SUMÁRIO 1 Delneamentos Expermentas 2 1.1 Delneamento Interamente Casualzado..................... 2 1.2 Delneamento Blocos Casualzados (DBC).................... 3 1.3 Delneamento Quadrado Latno (DQL)......................

Leia mais

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva Teora da Regressão Espacal Aplcada a Modelos Genércos Sérgo Alberto Pres da Slva ITENS DE RELACIONAMENTOS Tópcos Báscos da Regressão Espacal; Banco de Dados Geo-Referencados; Modelos Genércos Robustos;

Leia mais

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS 177 DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS Antôno Carlos da Slva Flho Un-FACEF Introdução Trend Strps (TS) são uma nova técnca de análse da dnâmca de um sstema,

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

Contabilometria. Aula 8 Regressão Linear Simples

Contabilometria. Aula 8 Regressão Linear Simples Contalometra Aula 8 Regressão Lnear Smples Orgem hstórca do termo Regressão Le da Regressão Unversal de Galton 1885 Galton verfcou que, apesar da tendênca de que pas altos tvessem flhos altos e pas axos

Leia mais

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará Regressão Logístca Aplcada aos Casos de Sífls Congênta no Estado do Pará Crstane Nazaré Pamplona de Souza 1 Vanessa Ferrera Montero 1 Adrlayne dos Res Araújo 2 Edson Marcos Leal Soares Ramos 2 1 Introdução

Leia mais

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear clássco com erros heterocedástcos O método de mínmos quadrados ponderados 1 Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Covariância na Propagação de Erros

Covariância na Propagação de Erros Técncas Laboratoras de Físca Lc. Físca e Eng. omédca 007/08 Capítulo VII Covarânca e Correlação Covarânca na propagação de erros Coefcente de Correlação Lnear 35 Covarânca na Propagação de Erros Suponhamos

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. A análse

Leia mais

Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade

Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade Aplcações de Estmadores Bayesanos Empírcos para Análse Espacal de Taxas de Mortaldade Alexandre E. dos Santos, Alexandre L. Rodrgues, Danlo L. Lopes Departamento de Estatístca Unversdade Federal de Mnas

Leia mais

Cap. IV Análise estatística de incertezas aleatórias

Cap. IV Análise estatística de incertezas aleatórias TLF 010/11 Cap. IV Análse estatístca de ncertezas aleatóras Capítulo IV Análse estatístca de ncertezas aleatóras 4.1. Méda 43 4.. Desvo padrão 44 4.3. Sgnfcado do desvo padrão 46 4.4. Desvo padrão da méda

Leia mais

3 Método Numérico. 3.1 Discretização da Equação Diferencial

3 Método Numérico. 3.1 Discretização da Equação Diferencial 3 Método Numérco O presente capítulo apresenta a dscretação da equação dferencal para o campo de pressão e a ntegração numérca da expressão obtda anterormente para a Vscosdade Newtonana Equvalente possbltando

Leia mais

UMA REPARAMETRIZAÇÃO PARA A FUNÇÃO DE CONFIABILIDADE CONSIDERANDO O MODELO DE REGRESSÃO VALOR EXTREMO COM DADOS DE TEMPO DE VIDA ACELERADO

UMA REPARAMETRIZAÇÃO PARA A FUNÇÃO DE CONFIABILIDADE CONSIDERANDO O MODELO DE REGRESSÃO VALOR EXTREMO COM DADOS DE TEMPO DE VIDA ACELERADO UMA REPARAMETRIZAÇÃO PARA A FUNÇÃO DE CONFIABILIDADE CONSIDERANDO O MODELO DE REGRESSÃO VALOR EXTREMO COM DADOS DE TEMPO DE VIDA ACELERADO Vera Luca D. TOMAZELLA José Carlos FOGO 2 RESUMO: Neste trabalho,

Leia mais

EFEITOS DE DISPERSÃO EM PROJETOS FATORIAIS: UMA SIMULAÇÃO CONFIRMATÓRIA

EFEITOS DE DISPERSÃO EM PROJETOS FATORIAIS: UMA SIMULAÇÃO CONFIRMATÓRIA ! "#$ " %'&)(*&)+,.- /10.*&4365879&4/1:.+58;.*=?5.@A*3B;.- C)D 5.,.5FE)5.G.+ &4- (IHJ&?,.+ /?=)5.KA:.+5MLN&OHJ5F&4E)*EOHJ&)(IHJ/)G.- D - ;./);.& Foz do Iguaçu, PR, Brasl, 09 a 11 de outubro de 007

Leia mais

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de métodos

Leia mais

Economia Industrial. Prof. Marcelo Matos. Aula 7

Economia Industrial. Prof. Marcelo Matos. Aula 7 Economa Industral Prof. Marcelo Matos Aula 7 Concentração de Mercado Resende e Boff [cap 5 de K&H, 2013]; Ferguson e Ferguson cap.3; Meddas de Concentração: característcas Possbldade de classfcar meddas

Leia mais

D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS

D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS O método das apromações sucessvas é um método teratvo que se basea na aplcação de uma fórmula de recorrênca que, sendo satsfetas determnadas condções de convergênca,

Leia mais