Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional. Marcos Sousa Goulart

Tamanho: px
Começar a partir da página:

Download "Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional. Marcos Sousa Goulart"

Transcrição

1 Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional Marcos Sousa Goulart Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2019

2 Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional Marcos Sousa Goulart Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística. Orientadores: Ralph dos Santos Silva Marina Silva Paez Rio de Janeiro, RJ - Brasil 2019 ii

3

4 CIP - Catalogação na Publicação G694a Goulart, Marcos Sousa Análise Bayesiana de Modelos de Redes Sociais para Dados do Twitter no Espaço Bidimensional / Marcos Sousa Goulart. -- Rio de Janeiro, f. Orientador: Ralph dos Santos Silva. Coorientadora: Marina Silva Paez. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, modelos de espaços latentes. 2. relação unidirecional. 3. posições ideológicas. 4. política. I. Silva, Ralph dos Santos, orient. II. Paez, Marina Silva, coorient. III. Título. Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a), sob a responsabilidade de Miguel Romeu Amorim Neto - CRB-7/6283. iv

5 Direi do Senhor: Ele é o meu Deus, o meu refúgio, a minha fortaleza, e nele confiarei. (Salmos 91:2) v

6 Agradecimentos Agradeço a Deus em nome do Senhor Jesus, pelos milagres realizados em minha vida, por me sustentar e me capacitar para enfrentar todos os obstáculos advindos deste difícil curso. Agradeço aos meus pais, por todo cuidado e amor que vocês têm para comigo e por sempre me ampararem nos momentos mais difíceis da minha vida, inclusive deste curso. Aos meus tios e primos, do Rio de Janeiro ou de outros estados, que perto ou longe, também me deram apoio nesta difícil jornada. Agradeço aos meus orientadores Ralph e Marina, por toda a atenção, calma e dedicação para comigo nesta dissertação, por retirar as minhas numerosas dúvidas e pelas correções que fizeram neste trabalho visando à sua melhoria. Agradeço à professora Mariane, por aceitar fazer parte da banca desta dissertação de mestrado e pelo curso de Inferência Estatística. Agradeço a estes e aos demais professores da pós-graduação em Estatística da UFRJ, que direta ou indiretamente me ajudaram e me proporcionaram uma base sólida e uma excelente formação. Agradeço ao professor Gustavo Ferreira, da ENCE, meu orientador de Iniciação Científica, cujo tema foi modelos de redes sociais, que me ajudou na maior parte da minha graduação, que me incentivou a prosseguir com os estudos e me ajudou muito a chegar até aqui. Agradeço também por fazer parte da banca desta dissertação de mestrado. Agradeço ao professor Luis Felipe Guedes da Graça, do Departamento de Sociologia e Política da UFSC, pelos comentários que contribuíram neste estudo. Agradeço a todos os meus colegas (quer sejam de Mestrado, quer sejam de Doutorado) que direta ou indiretamente me ajudaram, em especial, ao Márcio, que se formou comigo na ENCE e com quem tive oportunidade de reencontrar na Pós-Graduação em Estatística da UFRJ. Foi amigo de estudo neste meu período de Mestrado com o qual tive contato por boa parte do curso. Agradeço aos professores Lobão, meu orientador de graduação, e Luisa La Croix (ambos da ENCE), por ajudas e dicas que me auxiliaram muito neste curso de Mestrado. Certamente para a escolha de estágio em docência em Séries Temporais, eu me lembrei do curso que tive com o vi

7 Lobão na ENCE. Ao professor Eduardo Campos, que participou da minha banca de trabalho de conclusão de curso da graduação, da ENCE e que também me incentivou a prosseguir com os estudos. Por fim, agradeço à CAPES, pelo apoio financeiro dos meus estudos. vii

8 Resumo A análise de redes tem sido aplicada a diversas áreas do conhecimento, tal como no campo da política. As redes sociais têm apresentado impacto relevante nas campanhas eleitorais, e, assim, modelos de redes sociais têm sido desenvolvidos para estimar as posições ideológicas de políticos e partidos políticos, por exemplo. Barberá (2015), Souza et al. (2017) e Souza (2017) propuseram modelos com base em dados do Twitter e em relações unidirecionais em que o espaço latente é constituído de somente uma dimensão, definida como a ideologia e representado pelo antagonismo entre esquerda e direita. Trabalhos tais como o de Zucco (2009) definem uma segunda dimensão para representar a dicotomia entre oposição e governo a partir de modelos espaciais de votações nominais. O principal propósito desta dissertação é, por conseguinte, estender o modelo de Barberá (2015) para um espaço latente com duas dimensões. Será feito um estudo com dados artificiais a fim de se entender o processo de estimação e avaliar se há diferenças expressivas entre os modelos propostos. Em seguida, através de uma aplicação a um conjunto de dados reais, serão estimadas posições ideológicas em um espaço latente bidimensional no contexto brasileiro para deputados federais, senadores e atores políticos com conta no Twitter em julho de Palavras-chave: modelos de espaços latentes; relação unidirecional; posições ideológicas; política. viii

9 Abstract Network analysis has been applied to several areas such as politics. Social networks have presented a relevant impact in election campaigns, and thus social network models have been developed to estimate the ideological positions of politics and political parties, for instance. Barberá (2015), Souza et al. (2017) and Souza (2017) proposed models on the basis of Twitter data and unidirectional relationships in which the latent space only consists of one dimension, defined as the ideology and represented by the antagonism between left and right. On other side, Zucco (2009) define a second dimension to represent the dichotomy between opposition and government based on spatial models of roll-call voting. Therefore, the main purpose of this work is to extend the model of Barberá (2015) to a two-dimensional latent space. A study with artificial data will be conducted in order to understand the estimation process and to assess if there are significant differences between the proposed models. Then, through a real data application, ideological positions will be estimated in a two-dimensional latent space in the Brazilian context for federal deputies, senators and political actors with account on Twitter in July Keywords: latent space models; unidirectional relationship; ideological positions; politics. ix

10 Sumário 1 Introdução Objetivo Revisão de Inferência Bayesiana Teorema de Bayes Estimação Métodos de Monte Carlo via cadeias de Markov Metropolis-Hastings Amostragem de Gibbs Metodologia Especificação do modelo Distribuição a posteriori Estudo com dados simulados Dados gerados com uma constante de normalização Estimação com uma constante de normalização Estimação com duas constantes de normalização Dados gerados com duas constantes de normalização Estimação com uma constante de normalização Estimação com duas constantes de normalização Aplicação a dados reais Resultados para os atores políticos Resultados da primeira dimensão para os deputados federais e senadores Resultados da segunda dimensão para os deputados federais e senadores x

11 5.4 Resultados para os partidos Considerações finais 78 A Apêndice A 80 B Apêndice B 83 xi

12 Lista de Tabelas 4.1 Média e variância amostrais referentes aos dados simulados das distâncias entre os elementos de Φ e Θ na 1ª e na 2ª dimensão e sua soma Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori Lista dos partidos cujos usuários e atores políticos do Twitter tiveram, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou Estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori Lista dos atores políticos com suas médias e desvios a posteriori Médias a posteriori e intervalos de credibilidade para os usuários (senadores e deputados federais) Médias a posteriori e intervalos de credibilidade para os deputados federais Médias a posteriori e intervalos de credibilidade para os senadores xii

13 B.1 Lista dos deputados ordenados por partido B.2 Senadores ordenados por partido B.3 Número de usuários que são deputados federais, senadores e o total por partido. 87 xiii

14 Lista de Figuras 4.1 Gráficos de dispersão de φ 1 contra φ 2 e de θ 1 contra θ Histogramas referentes aos dados simulados de φ 1, φ 2, θ 1 e θ Histogramas referentes aos dados simulados das distâncias entre Φ e Θ na 1ª e na 2ª dimensão e sua soma Histograma das probabilidades verdadeiras Frequências de sucessos e fracassos para cada intervalo de distâncias Boxplot de θ 1 versus φ 1, que foi construído a partir da ordenação de φ 1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 1 que o seguem no Twitter Boxplot de θ 2 versus φ 2, que foi construído a partir da ordenação de φ 2 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 2 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 2 que o seguem no Twitter Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 3,1 e de φ 9,1 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 9,2 e de φ 16,2 para as duas cadeias Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Gráficos de dispersão dos postos de φ 1 e φ Gráficos de dispersão dos postos de θ 1 e θ Gráficos de dispersão das probabilidades e dos preditores não lineares Gráficos de γ 1 e de γ 2 após período de aquecimento e após a retirada das defasagens xiv

15 4.16 Gráficos da amostra da distribuição a posteriori de φ 3,1 e de φ 9,1 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 9,2 e de φ 16,2 para as duas cadeias Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Gráficos de dispersão dos postos de φ 1 e φ Gráficos de dispersão dos postos de θ 1 e θ Gráficos de dispersão das probabilidades e dos preditores não lineares Histograma das probabilidades verdadeiras Frequências de sucessos e fracassos para cada intervalo de distâncias Boxplot de θ 1 versus φ 1, que foi construído a partir da ordenação de φ 1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 1 que o seguem no Twitter Boxplot de θ 2 versus φ 2, que foi construído a partir da ordenação de φ 2 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 2 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 2 que o seguem no Twitter Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 3,1 e de φ 9,1 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 9,2 e de φ 16,2 para as duas cadeias Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Gráficos de dispersão dos postos de φ 1 e φ Gráficos de dispersão dos postos de θ 1 e θ Gráficos de dispersão das probabilidades e dos preditores não lineares Gráficos da amostra da distribuição a posteriori de γ 1 e de γ 2 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 3,1 e de φ 9,1 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 9,2 e de φ 16,2 para as duas cadeias Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Gráficos de dispersão dos postos de φ 1 e φ xv

16 4.38 Gráficos de dispersão dos postos de θ 1 e θ Gráficos de dispersão das probabilidades e dos preditores não lineares Gráficos da amostra da distribuição a posteriori de γ 1 e γ 2 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 36,1 e φ 47,1 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 106,1 para as duas cadeias Gráficos da amostra da distribuição a posteriori de φ 36,2 e φ 106,2 para as duas cadeias Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (continua) Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (continuação) Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a primeira dimensão (conclusão) Médias a posteriori e intervalos de credibilidade de 95% para os senadores para a primeira dimensão Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (continua) Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (continuação) Médias a posteriori e intervalos de credibilidade de 95% para os deputados federais para a segunda dimensão (conclusão) Médias a posteriori e intervalos de credibilidade de 95% para os senadores para a segunda dimensão Gráfico das médias a posteriori dos usuários (senadores e deputados federais) Gráfico das médias a posteriori dos deputados federais Gráfico das médias a posteriori dos senadores xvi

17 Capítulo 1 Introdução Segundo Wasserman e Faust (1994) e Hoff et al. (2002), a análise de redes tem sido observada em diversas áreas do conhecimento, tais como ciências sociais e comportamentais, economia, marketing e engenharia industrial. Para Lazer (2011), a importância do estudo de redes se baseia na seguinte premissa: estar em uma boa posição dentro da rede aumenta as chances de sucesso (entende-se por sucesso um rótulo para o evento em que se tem interesse). Por exemplo, uma pessoa que esteja em contato com vários indivíduos com gripe tem maiores chances de contrair a doença que, nesse caso, seria o sucesso do que alguém que tenha contato com poucos. Ainda de acordo com Knoke e Kuklinski (1982), a estrutura de relações entre atores e a localização de atores individuais na rede trazem importantes consequências comportamentais tanto para as unidades individuais quanto para o sistema como um todo. Nesta dissertação, propõe-se o uso de redes para a estimação da posição ideológica de usuários de uma rede social (a saber, o Twitter1), com base em suas interações com atores políticos. Segundo Valente e da Silva (2010), as redes sociais têm apresentado impacto relevante nas campanhas eleitorais, pois têm servido para muitos políticos e partidos políticos promoverem a sua própria imagem, de forma a propiciar uma relação mais direta com os eleitores. De acordo com Valente e da Silva (2010), a rede social Twitter teve como momento decisivo de propagação a sua utilização na campanha do então candidato à presidência dos Estados Unidos, Barack Obama, nas eleições de Segundo Amaral e de Pinho (2018), desde que o Twitter foi utilizado nessa campanha eleitoral, muitos políticos voltaram suas atenções ao uso das novas tecnologias, principalmente das mídias sociais. No cenário atual, o presidente da República do Brasil, Jair Bolsonaro, foi eleito em 2018 contando com o uso eficiente das redes sociais. Conforme Volpatti e Lima (2018), Jair Bolsonaro 1https://twitter.com/ 1

18 empregou a estratégia conhecida, pelos teóricos americanos, como going public ( indo a público, em tradução livre), o qual se caracteriza pela utilização de uma comunicação direta com a sua rede de contatos pelas redes sociais. A relação direta com os eleitores foi estabelecida, por exemplo, por meio de mensagens exclusivas enviadas pelo próprio político e transmissões ao vivo (lives) no Facebook2 e Instagram3. Ainda segundo Volpatti e Lima (2018), o que se notou nas eleições de 2018 para presidência da República do Brasil foi a força da interatividade como mecanismo de ganho de confiança dos apoiadores e eleitores, havendo uma transformação na maneira como os políticos se relacionam e convencem as pessoas. O presidente eleito teve pouco tempo para sua propaganda eleitoral na televisão. Mas, mesmo assim, ele conseguiu conquistar um enorme número de seguidores, se tornando o candidato mais popular nas eleições de De acordo com Brant (2018), como o atual presidente da República Jair Bolsonaro, eleito em 2018, teve poucas agendas públicas na reta final da campanha, ele usou o Twitter como principal meio de comunicação e para divulgar propostas de governo, tendo ao todo 2,27 milhões de seguidores. Ainda conforme Brant (2018), outro político influente nesta rede social é o atual presidente dos Estados Unidos, Donald Trump, que se manifesta sobre diversos assuntos políticos, como imigração e eleições legislativas e é seguido por 55,6 milhões de pessoas. Conforme Kadushin (2013) e Souza (2017), um conceito bastante relevante para o entendimento de redes é o de homofilia. Esse princípio se caracteriza pela tendência que os indivíduos com características comuns (como traços sociodemográficos e comportamentais) têm de se associar entre si. Isto é, supõe-se que pessoas com atributos similares têm maior chance de estarem conectadas do que duas pessoas com atributos dissimilares. Vários estudiosos como Wu et al. (2011), Conover et al. (2012) e Barberá (2015) têm observado padrões de segregação homofílica consistentes com modelos em redes de interações entre usuários do Twitter, que será de fundamental importância no âmbito desta dissertação, pois dados dessa rede social serão utilizados aqui. Para uma rede social de r elementos, Fienberg et al. (1985), Hoff et al. (2002) e Souza (2017) definem uma matriz social Y como uma matriz de dimensão r r em que cada elemento é referente à variável aleatória Y i,j, com i, j = 1,..., r. Nos casos mais simples, essa variável é binária e indica a presença ou ausência de uma determinada relação de interesse (amizade, por exemplo) entre os elementos i e j. Para esse caso em que Y i,j é dicotômico, a matriz social Y possui, em sua formulação mais geral, a seguinte especificação: 2https:// 3https:// 2

19 1, se há a presença da relação direcional do elemento i para o elemento j; Y i,j = 0, caso contrário. (1.1) Um caso particular ocorre quando a direção da relação entre os elementos i e j não é importante. Nesse caso, a matriz social Y é simétrica, ou seja, Y i,j = Y j,i, i, j. Para essa situação, diz-se que a relação é não direcionada. Outro caso particular ocorre quando há o interesse em se estudar uma relação direcional entre elementos de dois subconjuntos distintos e cuja direção dessa relação seja dada do primeiro para o segundo. Para este contexto, há dois subconjuntos de indivíduos diferentes dentro de uma mesma rede social, assumindo-se que o índice i se refere ao primeiro subconjunto e o índice j, ao segundo, com i = 1,..., n e j = 1,..., m, em que r = n + m. Nesse caso, diz-se que a relação é unidirecional. Um modelo de redes sociais bastante utilizado que leva em conta o caso em que a relação é não direcionada e que tem sido base para muitas extensões é o modelo de distâncias latentes (Hoff et al., 2002), no qual se usa regressão logística para modelar a probabilidade de relação entre os indivíduos da rede. Sejam z i e z j os vetores de tamanho k que representam, respectivamente, as posições dos elementos i e j em um espaço euclidiano latente de dimensão k e z i z j, a distância euclidiana entre esses dois elementos da rede. Então, quanto menor for essa distância, maior será a probabilidade de conexão entre eles. Há, assim, o emprego do princípio da homofilia, que, conforme explicado anteriormente, é a tendência de indivíduos semelhantes se relacionarem entre si. Ainda segundo Hoff et al. (2002) e Souza (2017), é possível incluir covariáveis ao modelo, podendo-se defini-lo da seguinte forma: ( ) πi,j logit(π i,j ) = log = α + β x i,j z i z j, (1.2) 1 π i,j em que π i,j = P (Y i,j = 1 z i, z j, x i,j, α, β), Y i,j é referente à especificação dada na Equação 1.1, x i,j = (x i,j,1, x i,j,2,..., x i,j,l ) representa as L covariáveis avaliadas no par (i, j). Além disso, α (escalar), β (vetor) e z são os parâmetros e as posições a serem estimados. Barberá (2015) propõe um modelo similar ao modelo de distâncias latentes de Hoff et al. (2002), permitindo estimar as posições latentes de indivíduos com base em dados do Twitter. Para compreender a estrutura dos dados, é importante entender como é feita a interação entre usuários do Twitter. Cada usuário pode escolher seguir outro usuário, que não necessariamente precisa segui-lo de volta. No modelo proposto por Barberá (2015), o elemento Y i,j da matriz Y 3

20 informa se o usuário i segue ou não o ator político j no Twitter (Souza, 2017). Sendo assim, essa variável binária é definida, no presente trabalho, da seguinte forma: 1, se o usuário i segue o ator político j no T witter (i j); Y i,j = 0, caso contrário (i j), (1.3) em que os usuários são os deputados federais e senadores que possuem conta no Twitter. Com relação aos atores políticos, estes se referem, por exemplo, a partidos políticos, políticos e principais jornais e revistas que possuem conta no Twitter. Esse modelo é um bom exemplo de uso de relação unidirecional, em que um indivíduo com conta no Twitter e do primeiro subconjunto (chamado de usuário ) pode seguir ou não um indivíduo com conta no Twitter e do segundo subconjunto (chamado de ator político ). Segundo Barberá (2015), o Twitter é uma rede social válida para o estudo da interação entre usuário e ator político. Este é uma das redes sociais mais utilizadas pelos internautas no momento presente, possuindo na atualidade 326 milhões de usuários ativos mensalmente no mundo. A utilização massiva dessa rede social se deve em grande parte ao fato de ela restringir o tamanho de cada mensagem a 280 caracteres, chamada de tweet, facilitando, assim, por exemplo no contexto político, a comunicação dos chefes de Estado com seus eleitores. Uma das vantagens do Twitter é o fato de ele ser dinâmico, isto é, permitir, por exemplo, um usuário seguir um ator político em uma certa época e depois de um certo tempo mudar de ideia em resposta a eventos de campanha. No modelo de Barberá (2015), há a suposição de que o Twitter seja uma rede homofílica, havendo a tendência de usuários do Twitter preferirem seguir atores políticos com ideais similares aos deles. Nessa abordagem, θ i e φ j são as posições do usuário i e do ator político j em uma escala latente unidimensional e fazem alusão, respectivamente, aos vetores z i e z j da Equação 1.2. Utiliza-se nesse caso o espaço euclidiano latente unidimensional representado pelo antagonismo entre esquerda e direita em Souza (2017), isto é, θ i, φ j R. Analogamente ao modelo de distâncias latentes, a probabilidade de um usuário i seguir ou não um determinado ator político j também será função da distância euclidiana das posições ideológicas desses dois usuários comuns: d(θ i, φ j ) = γ(θ i φ j ) 2, em que γ é uma constante não negativa de normalização e que avalia o quanto a distância entre as posições latentes influencia na probabilidade de relação entre os elementos da rede. Sendo assim, quanto menor for a distância entre suas posições no espaço latente, maior será a propensão da relação de amizade unidirecional entre eles. Portanto, há a seguinte especificação para o modelo: 4

21 [Y i,j π i,j ] Ber(π i,j ) ( ) πi,j log = α i + β j γ(θ i φ j ) 2, 1 π i,j em que Y i,j é referente à especificação dada na Equação 1.3. Segundo Barberá (2015), Souza et al. (2017) e Souza (2017), o parâmetro α i mede o nível de interesse político do usuário i e β j, a popularidade do ator político j. É importante ressaltar a natureza latente (não-observável) de todas as componentes do preditor (α i, β j, θ i e φ j ). 1.1 Objetivo Nos trabalhos de Barberá (2015), Souza (2017) e em outros da literatura, o espaço latente é constituído de apenas uma dimensão, definida como a ideologia e representada pelo antagonismo entre esquerda e direita. Em Zucco (2009) e Zucco e Lauderdale (2011), uma segunda dimensão foi definida para representar a dicotomia entre oposição e governo a partir de votações nominais, nas quais os membros de uma instituição política podem ser favoráveis ou não a determinado projeto de lei e têm maior probabilidade de votar na alternativa política que esteja mais próxima de sua posição ideológica. De acordo com Souza et al. (2017), calcular posições apenas em um espaço latente poderia permitir que dimensões tais como oposição-governo e esquerda-direita fossem embaralhadas na representação dessa única dimensão. O principal propósito desta dissertação é, por conseguinte, estender o modelo de Barberá (2015) para um espaço latente com duas dimensões, seguindo a ideia de Zucco (2009) e Zucco e Lauderdale (2011), mas aplicando-o aos dados do Twitter. Far-se-á um estudo com dados artificiais e uma aplicação a dados reais do cenário político brasileiro, utilizando, em ambos os casos, o plano euclidiano bidimensional. No primeiro caso, serão propostos modelos a fim de se entender o processo de estimação e para avaliar se há diferenças expressivas entre eles. Neste último, o intuito é o de estimar posições ideológicas em um espaço latente no contexto brasileiro para deputados federais, senadores e atores políticos que possuíam conta no Twitter em julho de Além da Introdução, esta dissertação de mestrado é dividida em cinco capítulos e um apêndice. No Capítulo 2, é exposto um resumo sobre alguns conceitos de Inferência Bayesiana. No Capítulo 3, apresenta-se a formulação matemática referente à variação na caracterização do modelo de Barberá (2015), considerando-se o espaço latente como o plano euclidiano bidimensional. No Capítulo 4, compara-se o desempenho de alguns modelos no estudo com 5

22 dados artificiais. No Capítulo 5, é realizada a análise referente à aplicação a dados reais do Twitter. No Capítulo 6, relatam-se as conclusões, as futuras investigações e variações que podem ser exploradas a partir desta dissertação de mestrado. No Apêndice A, apontam-se os problemas de identificabilidade inerentes ao modelo proposto no Capítulo 3 e suas possíveis soluções. Por fim, no Apêndice B, reporta-se a lista dos deputados federais e senadores que são considerados na aplicação a dados reais do Twitter e o partido político ao qual cada um deles pertence. É importante fazer a ressalva de que, como essa lista é referente a julho de 2017, as siglas de alguns partidos políticos não existem mais e alguns políticos podem ter mudado de partido e/ou podem não ser mais deputados federais ou senadores. 6

23 Capítulo 2 Revisão de Inferência Bayesiana Aqui serão apresentados alguns conceitos referentes à Inferência Bayesiana. Todo o conteúdo referente a este capítulo foi baseado em Migon et al. (2014). 2.1 Teorema de Bayes O problema de inferência estatística pode ser descrito a partir de uma quantidade de interesse desconhecida (não observável) θ = (θ 1,..., θ d ) com seus valores possíveis em um conjunto Θ R d. Sob a abordagem bayesiana, essa quantidade pode ser sumarizada probabilisticamente por meio de sua distribuição a priori p(θ). Para auxílio da descrição da incerteza a respeito dessa quantidade não observável, considerase o vetor de quantidades aleatórias Y, o qual é relacionado a θ. Uma vez observados os dados, p(y θ) é uma função de θ, à qual se chama de função de verossimilhança. Após observar Y = y, há um incremento na informação a respeito de θ, sendo esta sumarizada agora por p(θ y), chamada de distribuição a posteriori. Tal distribuição é obtida por meio do teorema de Bayes, que fornece a regra de atualização de probabilidades sobre θ partindo de p(θ) e chegando a p(θ y). Tem-se, então, a seguinte formulação matemática: em que p(θ y) = p(y θ)p(θ), p(y) p(y) = Θ p(y θ)p(θ)dθ. Nos casos em que a distribuição a posteriori não possuir uma forma fechada com padrão 7

24 conhecido, pode ser mais interessante usar uma formulação matemática alternativa. Como p(y) não depende de θ, essa função no denominador é apenas uma constante no que diz respeito a p(θ y). Sendo assim, a forma alternativa do teorema de Bayes é dada por: p(θ y) p(y θ)p(θ), em que refere-se ao símbolo de proporcionalidade. 2.2 Estimação A distribuição a posteriori apresenta toda a informação necessária para inferência sobre o parâmetro de interesse θ, o qual se considera ser, nesta subseção, um escalar. No entanto, pode ser necessário resumir essa informação em poucos números. E o caso mais simples é o de estimação pontual, em que se deseja determinar um único valor de θ que sumarize a distribuição como um todo. Esse valor será expresso por ˆθ e chamado estimador pontual de θ. Então, a estimação pontual pode ser entendida como um problema de decisão. A cada regra de decisão δ(y) e a cada possível valor do parâmetro θ fica associada uma perda, que pode ser entendida como uma penalização ao se tomar a decisão δ quando o verdadeiro valor do parâmetro é θ. Essa função de perda é denotada por L(δ, θ) e assume valores em R +. Sendo assim, define-se o risco (ou perda esperada) como R(δ) = E θ y [L(δ, θ)] e, ao minimizá-lo, obtém-se ˆθ. As principais funções de perda utilizadas são: Função de perda absoluta: L 1 (θ, δ) = θ δ ; Função de perda quadrática: L 2 (θ, δ) = (θ δ) 2 ; e 1, se θ δ > ɛ ; Função de perda 0-1: L (θ, δ) = 0, se θ δ ɛ, sendo ɛ 0. Os estimadores pontuais vinculados a essas perdas são, respectivamente: a mediana a posteriori, a média a posteriori e a moda a posteriori de θ. Generalizações para o caso multivariado podem ser encontradas em Berger (1985), DeGroot (2004) e Ferguson (1967). Outra forma de resumir uma informação sobre um parâmetro é através da estimação intervalar. No caso bayesiano, pode-se expressar probabilisticamente a pertinência ou não de θ a um intervalo, que é chamado de intervalo de credibilidade. Quanto menor for o tamanho desse intervalo, mais concentrada é a distribuição de θ, havendo, assim, uma informação a respeito da 8

25 dispersão desse parâmetro. Por definição, C é um intervalo de credibilidade de 100(1 α)% para θ se: P (θ C y) 1 α, em que (1 α) é o nível de credibilidade. Então, no caso em que θ é escalar, o intervalo é usualmente da forma [c 1, c 2 ]. Nem sempre a distribuição a posteriori possui uma forma fechada com padrão conhecido. Para contornar esse percalço, em geral, recorre-se a métodos numéricos, como os de Monte Carlo via cadeias de Markov (MCMC, abreviação em inglês de Markov chain Monte Carlo), que, no contexto bayesiano, utilizam simulação estocástica para gerar amostras da distribuição a posteriori e, posteriomente, para concluir o processo inferencial. 2.3 Métodos de Monte Carlo via cadeias de Markov Os métodos MCMC têm como ideia central construir uma cadeia de Markov da qual seja fácil de simular e cuja distribuição de equilíbrio seja igual à distribuição de interesse. Essas técnicas são muito poderosas, pois elas podem ser aplicadas com sucesso a problemas de alta dimensionalidade. Considere, então, que θ 1,..., θ d possuem distribuição conjunta p(θ)1 = p(θ 1,..., θ d ) e que q(θ,θ ) define a distribuição condicional das transições do estado θ. Sendo assim, é possível construir uma cadeia com probabilidades de transição invariantes no tempo, em que cada estado pode ser obtido a partir de qualquer outro estado com um número finito de iterações, possibilitando-se alcançar distribuição de equilíbrio para um número suficientemente grande de iterações. Portanto, ao construir uma cadeia de Markov adequada, é possível realizar uma simulação de Monte Carlo de valores de p. Por isso, o método é chamado de MCMC. Dois métodos se destacam nesse campo de estudo: o algoritmo de Metropolis-Hastings e a amostragem de Gibbs Metropolis-Hastings Um método bastante empregado na construção de uma cadeia de Markov é o algoritmo de Metropolis-Hastings, que foi inicialmente proposto por Metropolis et al. (1953) e depois 1p(θ) é uma distribuição genérica qualquer. 9

26 estendido por Hastings (1970). Este é baseado na ideia de usar uma distribuição auxiliar e em esquemas de aceitação-rejeição. Considere q(θ,.) como núcleo arbitrário de transição, θ (0) como vetor de valores iniciais e que, na iteração j, a cadeia está no estado θ (j). Então, a posição da cadeia na iteração (j + 1), denotada por θ (j+1), é obtida da seguinte forma: 1. proponha um movimento da cadeia para o estado θ a partir de q(θ (j),.); e 2. aceite o movimento proposto com probabilidade α(θ (j), θ ) = mín { } 1, p(θ )/q(θ (j), θ ) p(θ (j) )/q(θ, θ (j) ) e, então, faça θ (j+1) = θ. Caso contrário, rejeite o movimento com probabilidade 1 α(θ (j), θ ) e faça θ (j+1) = θ (j). Esse movimento da cadeia pode ser feito em blocos para os parâmetros do modelo. Na prática, é bastante difícil encontrar núcleos apropriados q(θ,.) para modelos de alta dimensionalidade e, ao mesmo tempo, garantir probabilidades de aceitação suficientemente grandes. Sendo assim, a cadeia pode passar longos períodos de tempo em um mesmo estado. A desvantagem deste algoritmo é, portanto, que, dependendo da escolha da distribuição proposta, o número de valores rejeitados pode ser muito alto, fazendo com que a cadeia se mova pouco. Sob certas condições de regularidade (Tierney, 1994), a distribuição limite de θ (j) tende a p(θ) após um período chamado de aquecimento (e denominado período de burn-in ou warm-up, em inglês) no qual as N 0 iterações iniciais devem ser descartadas. Sendo assim, os passos 1 e 2 do algoritmo de Metropolis-Hastings devem ser realizados até alcançar a convergência e até obter o tamanho da amostra da distribuição a posteriori necessário para a inferência do modelo. A amostra resultante é, então, composta por M = N N 0 iterações, em que N é o número total de iterações realizadas. Uma das formas de monitorar a convergência em distribuição das cadeias é por meio de inspeção gráfica, na qual se observam as trajetórias de cadeias diferentes partindo de valores iniciais distintos. Quando o gráfico da cadeia tem uma aparência aleatória e estacionária, há indício de convergência. Depois de obter a amostra, os valores consecutivos θ (j), j = t, t + 1, t + 2,..., para algum t positivo, podem ser correlacionados. Apesar disso, uma amostra aleatória de tamanho s de θ pode ser formada retendo s valores sucessivos após a verificação da convergência. Para se 10

27 ter observações aproximadamente independentes, podem-se manter s valores defasados por l unidades. Este número de defasagens deve ser suficientemente grande para assegurar que a amostra final seja aproximadamente independente, podendo essa escolha ser baseada em um gráfico contendo a função de autocorrelação da cadeia. Após a obtenção da amostra final, a inferência sobre cada θ i pode ser feita a partir do método de Monte Carlo. Por exemplo, a média a posteriori da i-ésima componente de θ é estimada por (1/s) s k=1 θ i,k, em que θ i,k é referente ao k-ésimo valor da amostra final do parâmetro θ i. Além disso, a média a posteriori de uma função g da i-ésima componente de θ i é estimada por (1/s) s k=1 g(θ i,k). Por outro lado, o intervalo de credibilidade de 100(1 α)% para a i-ésima componente de θ, dado por [c 1, c 2 ], pode ser estimado por definir c 1 como o quantil amostral α 2 de {θ i,k, k = 1,..., s} e c 2 como o quantil amostral 1 α Amostragem de Gibbs Uma outra forma também muito utilizada na construção de uma cadeia de Markov é através do emprego da amostragem de Gibbs. Tal método foi proposto por Geman e Geman (1984) e popularizado por Gelfand e Smith (1990). Convém mencionar também que a amostragem de Gibbs é um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceitação do valor gerado é igual a 1 e as distribuições condicionais completas assumem o papel da distribuição proposta. Seja p i (θ i θ i ) a função de densidade condicional de θ i dados os valores de todos os outros componentes do vetor θ e considere que seja possível gerar dessa distribuição para cada i = 1, 2,..., d. Com base nessa formulação, o algoritmo se inicia a partir de valores iniciais escolhidos arbitrariamente θ (0) = (θ (0) 1,..., θ (0) d ) para todas as quantidades desconhecidas do modelo. Além disso, na j-ésima iteração, a cadeia se encontra no estado θ (j). Então, a posição da cadeia na iteração seguinte (j + 1) é obtida da seguinte forma: 1. gere θ 1 (j+1) de p 1 (θ 1 θ 2 (j),..., θ d (j) ); 2. gere θ 2 (j+1) de p 2 (θ 2 θ 1 (j+1), θ 3 (j),..., θ d (j) ); e 3. repetir sucessivamente o procedimento para i = 3, 4,..., d, em que, no último passo, θ d (j+1) é gerado de p d (θ d θ 1 (j+1),..., θ d 1 (j+1) ), obtendo-se o vetor θ (j+1) = (θ (j+1) 1,..., θ (j+1) d ). Sob certas condições de regularidade (Tierney, 1994), a distribuição limite de θ (j) tende a p(θ). Os passos 1, 2 e 3 do algoritmo de Gibbs devem ser executados até alcançar a convergência 11

28 e até obter o tamanho da amostra da distribuição a posteriori necessário para a inferência do modelo. Os procedimentos de análise de convergência das cadeias e de estimação via amostragem de Gibbs podem ser realizados similarmente ao método de Metropolis-Hastings, descrito na Seção

29 Capítulo 3 Metodologia Neste capítulo, será empregada uma variação na caracterização do modelo de Barberá (2015), considerando-se o espaço latente como o plano euclidiano bidimensional, sendo explicitada sua especificação na Seção 3.1 e sua distribuição a posteriori na Seção 3.2. Convém frisar ainda que o Apêndice A complementa este capítulo, havendo a exposição dos problemas de identificabilidade deste modelo no espaço latente bidimensional. 3.1 Especificação do modelo Similarmente a Barberá (2015), propõe-se um modelo em que cada elemento Y i,j da matriz Y é uma variável binária que informa se o usuário i segue ou não o ator político j no Twitter, sendo definida com a seguinte configuração: 1, se o usuário i segue o ator político j no T witter (i j); Y i,j = 0, caso contrário (i j), (3.1) em que os usuários são os deputados federais e senadores que possuem conta no Twitter. Com relação aos atores políticos, estes se referem, por exemplo, a partidos políticos, políticos e principais jornais e revistas que possuem conta no Twitter. Conforme mencionado anteriormente, propõe-se, nesta dissertação, estender o modelo de Barberá (2015) para o espaço euclidiano latente bidimensional. Sendo assim, há uma abordagem diferente para a configuração das posições do usuário i e do ator político j no espaço latente: θ i, φ j R 2, em que θ i = (θ i,1, θ i,2 ) e φ j = (φ j,1, φ j,2 ). Nessa caracterização, θ i,1 e φ j,1 referem-se, respectivamente, às posições do usuário i e do ator político j na primeira dimensão 13

30 do espaço latente. Ademais, θ i,2 e φ j,2 referem-se, respectivamente, às posições do usuário i e do ator político j na segunda dimensão do espaço latente. Além disso, outra contribuição desta dissertação é a inclusão de duas constantes de normalização não negativas: γ 1, relativa à primeira dimensão e γ 2, referente à segunda dimensão. Portanto, o modelo proposto é definido da seguinte forma: [Y i,j π i,j ] Ber(π i,j ) (3.2) ( ) πi,j η i,j = logit(π i,j ) = log = α i + β j γ 1 (φ j,1 θ i,1 ) 2 γ 2 (φ j,2 θ i,2 ) 2 (3.3) 1 π i,j π i,j = exp (η i,j) 1 + exp (η i,j ), (3.4) em que Y i,j é referente à especificação dada na Equação 3.1. Ademais, η i,j = logit(π i,j ) representa a função de ligação do modelo, sendo definido como preditor não linear. É interessante notar que, nessa formulação proposta, as distâncias entre as posições latentes nas duas dimensões, dadas por (φ j,1 θ i,1 ) 2 e (φ j,2 θ i,2 ) 2, podem ter, em princípio, uma contribuição diferente na probabilidade de relação entre os elementos da rede. Isso ocorre devido à inclusão das duas constantes de normalização γ 1 e γ 2 no modelo. 3.2 Distribuição a posteriori Assumindo-se independência entre usuários e atores políticos, condicionalmente aos parâmetros, tem-se a seguinte função de verossimilhança: p(y α, β, γ 1, γ 2, Θ, Φ) = n m i=1 j=1 π y i,j i,j (1 π i,j) 1 y i,j, (3.5) em que y representa a matriz de dados observados, α = (α 1,..., α n ), β = (β 1,..., β m ), Θ = (θ 1, θ 2 ), Φ = (φ 1, φ 2 ), θ 1 = (θ 1,1,..., θ n,1 ), θ 2 = (θ 1,2,..., θ n,2 ), φ 1 = (φ 1,1,..., φ m,1 ) e φ 2 = (φ 1,2,..., φ m,2 ). Por se utilizar uma abordagem bayesiana para inferência do modelo proposto, precisa-se especificar a distribuição a priori e obter a distribuição a posteriori, que é dada, a menos de uma constante normalizadora multiplicativa, pelo produto da função de verossimilhança pela distribuição a priori. A distribuição a priori atribuída aos parâmetros γ 1 e γ 2 é dada pela distribuição normal truncada no intervalo [0, ) com parâmetro de localização zero e escala σ 2. Esta proposta 14

31 é uma alternativa a priori utilizada em Barberá (2015), Souza et al. (2017) e Souza (2017), que possui uma probabilidade acumulada considerável em pontos vizinhos de zero e pode, por conseguinte, resultar em problemas de convergência. Para os elementos de α, Θ, β e Φ, propõem-se distribuições a priori normais. Sendo assim, as distribuições a priori escolhidas para as quantidades desconhecidas foram: γ 1 N + (0, σγ 2 1 ), γ 2 N + (0, σγ 2 2 ), α i N (µ α, σα), 2 θ i,k N (µ θk, σθ 2 k ), β j N (µ β, σβ 2) e φ j,k N (µ φk, σφ 2 k ), para i = 1, 2,..., n, j = 1, 2,..., m e k = 1, 2. Portanto, a distribuição a posteriori é dada por: p(α, β, γ 1, γ 2, Θ, Φ y) p(y α, β, γ 1, γ 2, Θ, Φ)p(α, β, γ 1, γ 2, Θ, Φ, µ, σ) = n m π y ij ij (1 π ij) 1 y ij i=1 j=1 n [ N (αi µ α, σα)n 2 (θ i,1 µ θ1, σθ 2 1 )N (θ i,2 µ θ2, σθ 2 2 ) ] i=1 m [ N (βj µ β, σβ)n 2 (φ j,1 µ φ1, σφ 2 1 )N (φ j,2 µ φ2, σφ 2 2 ) ] j=1 N + (γ 1 0, σ 2 γ 1 )N + (γ 2 0, σ 2 γ 2 ), (3.6) em que µ = (µ θ1, µ θ2, µ φ1, µ φ2 ) e σ = (σ 2 θ 1, σ 2 θ 2, σ 2 φ 1, σ 2 φ 2, σ 2 γ 1, σ 2 γ 2 ). Além disso, N (x µ, σ 2 ) representa a função de densidade de probabilidade da distribuição normal com média µ e variância σ 2 avaliada em x. Por fim, N + (w 0, τ 2 ) refere-se à função de densidade de probabilidade da distribuição normal truncada que assume apenas valores não negativos com parâmetros zero e τ 2 avaliada em w. Por fim, vale ressaltar que σ 2 γ 1 e σ 2 γ 2 são hiperparâmetros fixos. Devido aos problemas de identificabilidade (apresentados no Apêndice A), foram consideradas algumas restrições no modelo: µ α = 0, µ θ1 = 0, µ θ2 = 0, σ 2 θ 1 = 1 e σ 2 θ 2 = 1. Outras combinações de restrições foram testadas, mas, no estudo com dados artificiais do Capítulo 4, serão apresentados os resultados obtidos com apenas essas. Por exemplo, em uma das abordagens que não serão apresentadas no contexto desta dissertação de mestrado, fixaram-se os valores das constantes de normalização γ 1 e γ 2 e utilizaram-se distribuições a priori GI(ν 1, λ 1 ) e GI(ν 2, λ 2 ) para os hiperparâmetros σ 2 θ 1 e σ 2 θ 2, respectivamente, isto é, distribuições gama inversa em que ν 1 e ν 2 são os parâmetros de forma e λ 1 e λ 2, os parâmetros de escala. Averiguou-se que os resultados desta abordagem foram similares aos que serão apresentados no Capítulo 4. Segundo Barberá (2015), fixar hiperparâmetros das distribuições a priori alcança a identificação local, mas não a global. Isto é, ao fixar µ θ1 = 0, σ 2 θ 1 = 1, µ θ2 = 0 e σ 2 θ 2 = 1, todas as posições latentes inerentes à primeira dimensão podem, por exemplo, ser multiplicadas por 15

32 -1 sem alterar a verossimilhança (ou seja, a escala pode ser invertida). Isso implica, em tal caso, que a verossimilhança e a distribuição a posteriori são bimodais e que cada cadeia da posição latente da primeira dimensão pode convergir para uma moda diferente. Esse problema pode ser resolvido ao multiplicar os valores amostrados para a primeira dimensão de Θ e de Φ por -1 em uma das cadeias para que todas as cadeias produzam resultados similares. Uma solução alternativa é escolher valores iniciais para um conjunto de posições latentes que sejam consistentes com o sentido esperado. É importante mencionar ainda que, para o caso particular em que γ = γ 1 = γ 2, não é necessário impor a restrição σθ 2 2 = 1. Então, pode-se utilizar, nesse caso, uma distribuição a priori GI(ν, λ) para o hiperparâmetro σθ 2 2, isto é, a distribuição gama inversa em que ν é o parâmetro de forma e λ, o parâmetro de escala. Vale também destacar que, no caso específico de γ 2 ser igual a zero, há equivalência com o modelo de Barberá (2015), o qual, segundo Zucco e Lauderdale (2011), é caracterizado pelo colapso de duas dimensões em apenas uma no posicionamento dos indivíduos no espaço latente. De acordo com Zucco e Lauderdale (2011), a dificuldade de distinção entre as duas dimensões pode ocorrer devido à existência de uma coalizão governamental ideologicamente coerente. Serão utilizadas distribuições a priori truncadas para alguns parâmetros de cada dimensão de Φ para facilitar a identificação do modelo. Segundo Bakker e Poole (2013), definir o sinal de um parâmetro é uma restrição mais suave. Por outro lado, fixar dois pontos, por exemplo, é uma restrição mais rígida por fixar uma das distâncias. De fato, foram fixados alguns elementos de ambas as dimensões da matriz de parâmetros Φ e averiguou-se que os seus resultados foram similares aos obtidos pelo modelo com distribuições a priori truncadas para alguns parâmetros de cada dimensão de Φ. Então, preferiu-se utilizar o modelo mais flexível. Pelo fato de a distribuição a posteriori não possuir uma forma fechada com padrão conhecido, os métodos MCMC serão utilizados para obter amostras dessa distribuição a posteriori, permitindo a inferência sobre as quantidades desconhecidas do modelo. 16

33 Capítulo 4 Estudo com dados simulados Neste capítulo, são apresentados os principais resultados referentes ao estudo com dados artificiais, que têm por principal finalidade avaliar a estimação das posições latentes no espaço bidimensional. Outro objetivo deste estudo é representar uma situação real e similar à da aplicação que será analisada mais à frente no Capítulo 5. Para isso, os dados artificiais foram gerados a partir de dois modelos: no primeiro caso, considerou-se uma constante de normalização, com γ = γ 1 = γ 2 (Seção 4.1), e, no segundo caso, foram utilizadas duas constantes de normalização, γ 1 conjuntamente com γ 2 (Seção 4.2). Primeiramente realizou-se uma análise exploratória dos dados gerados e um estudo dos parâmetros. Posteriormente foram comparados os modelos propostos através de uma análise associada à estimação dos parâmetros e ao ajuste de dados artificiais, por meio da obtenção de suas probabilidades preditas. 4.1 Dados gerados com uma constante de normalização Nesta seção, gerou-se um conjunto de dados segundo o modelo proposto nas Equações 3.2, 3.3 e 3.4 e supôs-se que γ 1 = γ 2, ou seja, considerou-se apenas uma constante de normalização, com γ = γ 1 = γ 2 = 0, 3. Os demais parâmetros foram gerados das seguintes distribuições: α i N(0; 0, 2); β j N(1; 0, 2); θ i,k N(0; 1); φ j,k 0, 5N( 1, 5; 1) + 0, 5N(1, 5; 1), para i = 1,..., 200; j = 1,..., 20 e k = 1, 2. Esta última distribuição mistura bimodal de normais permite que seus pontos sejam aleatoriamente gerados de forma a possuir duas modas diferentes em cada eixo, possibilitando, assim, uma distinção entre dois grupos em cada eixo do espaço latente. A escolha de seus valores foi feita de modo a evitar a obtenção de uma matriz social esparsa, isto é, uma matriz com uma quantidade elevada de zeros. Note também 17

34 que n = 200 e m = 20, o que é equivalente a 200 usuários comuns e 20 atores políticos. Similarmente a Barberá (2015) e Souza (2017), foram impostas duas restrições a essa matriz: suas linhas não poderiam somar zero e suas colunas não poderiam ter soma menor do que 10. Sendo assim, cada usuário deveria seguir ao menos um ator político, que, por sua vez, deveria ser seguido por pelo menos 10 usuários, evitando-se, assim, a utilização de uma matriz social que tenham usuários com ínfimo interesse político e atores políticos com popularidade muito baixa. A partir dos valores verdadeiros dos parâmetros obtidos nesta simulação, realizou-se, então, uma análise exploratória dos vetores paramétricos φ 1, φ 2, θ 1 e θ 2 por meio de gráficos de dispersão e histogramas, os quais seguem nas Figuras 4.1 e 4.2. φ θ φ θ 1 Figura 4.1: Gráficos de dispersão de φ 1 contra φ 2 (à esquerda) e de θ 1 contra θ 2 (à direita). Pela Figura 4.1, observa-se que relativamente há um certo equilíbrio entre valores positivos e negativos para cada dimensão de Φ e Θ. Além disso, nota-se que pares de pontos associados às matrizes de parâmetros Φ e Θ foram gerados em cada quadrante do plano cartesiano, o que é desejável para a estimação do modelo. A Figura 4.2 apresenta os histogramas dos resultados simulados dos elementos dos vetores paramétricos φ 1, φ 2, θ 1 e θ 2. Primeiramente, nota-se um maior espalhamento dos valores gerados para a segunda dimensão da matriz de parâmetros Φ do que para a primeira dimensão. Isso é um indicativo de que possivelmente haverá maior dificuldade de estimar os parâmetros da primeira dimensão de Φ. Além disso, observa-se, aparentemente, que as distribuições amostrais associadas a θ 1 e θ 2 são semelhantes. A Figura 4.3 apresenta o histograma das distâncias obtidas entre os elementos de Φ e Θ na primeira dimensão, (θ 1 φ 1 ) 2, na segunda dimensão, (θ 2 φ 2 ) 2, e da soma entre as duas, 18

35 (θ 1 φ 1 ) 2 + (θ 2 φ 2 ) 2. A Tabela 4.1 apresenta a média e a variância dessas distâncias. Nota-se, Densidade φ 1 Densidade φ 2 Densidade Densidade θ θ 2 Figura 4.2: Histogramas referentes aos dados simulados de φ 1, φ 2, θ 1 e θ 2. Densidade Densidade Densidade (θ 1 φ 1 ) (θ 2 φ 2 ) (θ 1 φ 1 ) 2 + (θ 2 φ 2 ) 2 Figura 4.3: Histogramas referentes aos dados simulados das distâncias entre Φ e Θ na primeira dimensão, (θ 1 φ 1 ) 2, na segunda dimensão, (θ 2 φ 2 ) 2, e a soma entre as duas, (θ 1 φ 1 ) 2 + (θ 2 φ 2 ) 2. 19

36 Tabela 4.1: Média e variância amostrais referentes aos dados simulados das distâncias entre os elementos de Φ e Θ na primeira e na segunda dimensão e sua soma. Variável Média Variância Distância na primeira dimensão 2,77 13,75 Distância na segunda dimensão 3,76 17,66 Soma das distâncias 6,52 29,34 neste caso específico, que a média e a variabilidade das distâncias é maior para a segunda dimensão. A Figura 4.4 apresenta o histograma referente às probabilidades verdadeiras de se obter sucesso, π i,j, propostas na Equação 3.4. No contexto desta dissertação, o sucesso ocorre quando o usuário i segue o ator político j no Twitter. Observa-se a presença de muitas probabilidades próximas de zero. Segundo Souza (2017), com efeito, a maior parte das probabilidades geradas pela função de ligação logit estão em sua cauda inferior. Densidade Probabilidades verdadeiras Figura 4.4: Histograma das probabilidades verdadeiras. A Tabela 4.2 apresenta a proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias, que, neste caso, é referente à expressão (θ 1 φ 1 ) 2 + (θ 2 φ 2 ) 2. Por fim, a Figura 4.5 mostra a frequência de sucessos e fracassos para cada intervalo dessas distâncias. Percebe-se que há um predomínio de sucessos para distâncias pequenas, mas quanto mais se aumenta o valor da distância, maior é a supremacia dos fracassos sobre os sucessos. Esse resultado é o esperado, de acordo com a formulação do modelo, que segue o princípio da homofilia, ou seja, indivíduos mais próximos no espaço latente tendem a se associar com maior probabilidade. 20

37 Resultado semelhante também pode ser observado pelas Figuras 4.6 e 4.7. A Figura 4.6 mostra o boxplot de θ 1 versus φ 1, que foi construído a partir da ordenação de φ 1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 1 do boxplot associado à Figura 4.6, consideraram-se apenas aqueles elementos do vetor paramétrico θ 1 que o seguem no Twitter. A Figura 4.7 mostra o boxplot de θ 2 versus φ 2, o qual foi construído analogamente às condições da Figura 4.6. Observa-se, pela Figura 4.6, para os casos em que há sucesso, uma certa ascendência dos valores associados à primeira dimensão de Θ conforme se aumenta o valor associado à primeira dimensão de Φ. Pela Figura 4.7, verifica-se que isso também é satisfeito para a segunda dimensão de Θ e Φ. Tabela 4.2: Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias. Intervalo Fracasso Sucesso 0 a 5 0, , a 10 0, , a 15 0, , a 20 0, , a 25 0, , a 30 0, ou mais 0, Frequência Sucesso Fracasso 0 a 5 5 a a a a a ou mais Intervalo Figura 4.5: Frequências de sucessos e fracassos para cada intervalo de distâncias. 21

38 θ φ (1), 1 φ (5), 1 φ (10), 1 φ (15), 1 φ (20), 1 Figura 4.6: Boxplot de θ 1 versus φ 1, que foi construído a partir da ordenação de φ 1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 1 que o seguem no Twitter. θ φ (1), 2 φ (5), 2 φ (10), 2 φ (15), 2 φ (20), 2 Figura 4.7: Boxplot de θ 2 versus φ 2, que foi construído a partir da ordenação de φ 2 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 2 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 2 que o seguem no Twitter. Para a estimação do modelo explicitado no Capítulo 3, truncaram-se as distribuições a priori para dois parâmetros de cada dimensão de Φ. Então, foram considerados dois casos em separado: no primeiro, utilizou-se o modelo supondo uma constante de normalização, ou seja, 22

39 γ = γ 1 = γ 2 (Seção 4.1.1), e, no segundo, foram estimadas duas constantes de normalização (Seção 4.1.2). Em ambos os casos, utilizaram-se duas cadeias diferentes via MCMC e o monitoramento de convergência delas foi realizado por meio de inspeção gráfica, na qual se observaram suas trajetórias partindo de valores iniciais distintos. Também foram analisados gráficos de dispersão e os valores das correlações entre os valores verdadeiros e os valores estimados dos parâmetros, além da obtenção de intervalos de credibilidade para alguns parâmetros e da taxa de cobertura para os elementos das matrizes de parâmetros Θ e Φ. O intuito foi o de averiguar se os parâmetros eram bem estimados e se havia acurácia em suas estimações, isto é, se o verdadeiro valor do parâmetro estava dentro de seu intervalo de credibilidade. Também foram construídos gráficos de dispersão entre valores verdadeiros e valores ajustados pela média a posteriori para as probabilidades de o usuário i seguir o ator político j no Twitter e para os preditores não lineares com o objetivo de avaliar o ajuste do modelo Estimação com uma constante de normalização Neste caso, considerou-se o modelo com apenas uma constante de normalização, assumindose que γ = γ 1 = γ 2. Além disso, empregaram-se as seguintes distribuições a priori truncadas para os parâmetros em ambas as dimensões de Φ: φ 3,1 N + (0; 9), φ 9,1 N (0; 9), φ 9,2 N (0; 9) e φ 16,2 N + (0; 9). Vale ressaltar que as distribuições a priori destes elementos da matriz de parâmetros Φ foram truncadas porque estes são os valores extremos das duas dimensões. Para dados reais, é necessária a elicitação de prioris de acordo com o ponto de vista do especialista. É importante mencionar também que, ao considerar, por exemplo, distribuições a priori truncadas para alguns elementos do vetor paramétrico φ 1, podem ocorrer problemas de convergência. Por esse motivo, recomenda-se a utilização de distribuições a priori para alguns elementos de ambos os vetores paramétricos φ 1 e φ 2. Isso ocorre porque quando se restringe o domínio das distribuições a priori de alguns elementos de ambas as dimensões da matriz de parâmetros Φ, há uma maior contribuição para se evitar a ocorrência de problemas de rotação e reflexão do que quando se restringe o domínio das distribuições a priori de alguns elementos de apenas uma de suas dimensões. As distribuições a priori atribuídas ao parâmetro γ e aos hiperparâmetros foram: γ N + (0; 1000), µ β N (0; 1000), µ φ1 N (0; 1000), µ φ2 N (0; 1000), σα GI(0, 2 01; 0, 01), σβ 2 GI(0, 01; 0, 01), σ2 φ 1 GI(0, 01; 0, 01), σφ 2 2 GI(0, 01; 0, 01) e σθ 2 2 GI(0, 01; 0, 01). As outras prioris dos parâmetros foram mencionadas no Capítulo 3. É interessante notar que os seus hiperparâmetros foram escolhidos de tal forma que as distribuições 23

40 a priori sejam pouco informativas. No que diz respeito aos valores iniciais, segundo Barberá (2015) e Souza (2017), recomendase inicializar as cadeias de alguns elementos dos vetores paramétricos φ 1 e φ 2 com os valores -1 e 1 a fim de tentar evitar o percalço inerente à reflexão de escala, que se dá quando c 3 = 1, apresentado no Apêndice A ao se mencionar o problema de invariância à reflexão. Então, com relação à matriz de parâmetros Φ, utilizou-se o seguinte critério: quando o valor verdadeiro era maior ou igual a 1,5, inicializou-se com 1; quando o valor verdadeiro era menor ou igual a -1,5, inicializou-se com -1; e quando o valor verdadeiro estava entre -1,5 e 1,5, inicializou-se com zero. Vale ressaltar aqui que, no caso de dados reais, para explicitar estes valores iniciais, é necessária a ajuda do especialista. Para ambas as cadeias, foram feitas as seguintes inicializações para o vetor paramétrico φ 1 : φ (0) 2,1 = 1, φ (0) 3,1 = 1, φ (0) 9,1 = 1, φ (0) 11,1 = 1, φ (0) 13,1 = 1 e φ (0) 20,1 = 1. E, para ambas as cadeias do vetor paramétrico φ 2, foram adotados os seguintes valores iniciais: φ (0) 1,2 = 1, φ (0) 2,2 = 1, φ (0) 4,2 = 1, φ (0) 6,2 = 1, φ (0) 8,2 = 1, φ (0) 9,2 = 1, φ (0) 10,2 = 1, φ (0) 12,2 = 1, φ (0) 14,2 = 1, φ (0) 15,2 = 1, φ (0) 16,2 = 1 e φ (0) 17,2 = 1. Os valores iniciais para os outros parâmetros na primeira cadeia foram: γ (0) = 0, 29, = 0, 2, σα 2 (0) = 1 4, 75, σ2 (0) β = 1 5, 75, σ2 (0) φ 1 = σφ 2 (0) 2 = 1 1, 2 e. Utilizaram-se os seguintes valores iniciais para estes parâmetros na segunda µ (0) β = 0, 1, µ (0) φ 1 = 0, 3, µ (0) φ 2 σθ 2 (0) 2 = 1 0, 9 cadeia: γ (0) = 0, 31, µ (0) β = 0, 2, µ (0) φ 1 = µ (0) φ 2 σφ 2 (0) 1 = σφ 2 (0) 2 = 1 0, 8 e σ2 (0) θ 2 = 1 1, 1. = 0, 2, σα 2 (0) = 1 5, 75, σ2 (0) β = 1 4, 75, Foram geradas duas cadeias de tamanho por MCMC, sendo descartadas as primeiras iterações, que serviram como amostra de aquecimento. Além disso, utilizou-se uma defasagem igual a 800, obtendo-se ao todo uma amostra final de tamanho 700 para cada parâmetro (sendo 350 para cada cadeia). Para sua implementação, foi utilizado o programa JAGS (Just Another Gibbs Sampler, (Plummer, 2017)) e o pacote rjags (Plummer, 2016) do programa estatístico livre R (R Development Core Team, 2014), em que se emprega a amostragem de Gibbs. As Figuras 4.8, 4.9 e 4.10 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ, φ 3,1, φ 9,1, φ 9,2 e φ 16,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros. De fato, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo nem foi identificado problema de autocorrelação serial ao utilizar uma defasagem igual a 800. Observa-se também que, em todos os casos, não foram gerados valores próximos de zero para esses parâmetros via MCMC, o que indica que as distribuições a priori truncadas 24

41 funcionaram de forma adequada. A Tabela 4.3 mostra estatísticas descritivas da distribuição a posteriori e estimativas Figura 4.8: Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias, após período de aquecimento e após a retirada das defasagens. A reta em preto representa o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Figura 4.9: Gráficos da amostra da distribuição a posteriori de φ 3,1 (à esquerda) e de φ 9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. 25

42 Figura 4.10: Gráficos da amostra da distribuição a posteriori de φ 9,2 (à esquerda) e de φ 16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Tabela 4.3: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori. Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ 0,30 0,34 0,08 0,34 0,21 0,51 µ β 1,00 0,99 0,13 0,99 0,75 1,29 µ φ1 0-0,23 0,28-0,23-0,81 0,31 µ φ2 0-0,30 0,37-0,29-1,02 0,40 σα 2 0,20 0,18 0,07 0,17 0,04 0,33 σβ 2 0,20 0,16 0,11 0,13 0,03 0,47 σφ 2 1 3,25 0,99 0,58 0,84 0,31 2,40 σφ 2 2 3,25 2,20 1,16 1,91 0,84 5,32 σθ 2 2 1,00 1,22 0,35 1,17 0,67 2,07 intervalares do parâmetro γ e dos hiperparâmetros do modelo. Observa-se que, dentre os parâmetros dessa tabela, apenas o valor verdadeiro do hiperparâmetro σφ 2 1 está fora do intervalo de credibilidade de 95%. A Figura 4.11 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação 26

43 entre parênteses. Pode-se verificar que os parâmetros foram bem estimados, com exceção do vetor paramétrico α, para o qual se observa um leve problema de escala. Nota-se através dessa figura que a segunda dimensão de Φ e Θ é melhor estimada do que a primeira dimensão destas matrizes de parâmetros. Médias a posteriori de α Médias a posteriori de φ Valores verdadeiros de α (corr = 0,62) Valores verdadeiros de φ 2 (corr = 0,97) Médias a posteriori de β Médias a posteriori de θ Valores verdadeiros de β (corr = 0,64) Valores verdadeiros de θ 1 (corr = 0,70) Médias a posteriori de φ Médias a posteriori de θ Figura 4.11: Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Valores verdadeiros de φ 1 (corr = 0,95) Valores verdadeiros de θ 2 (corr = 0,85) Médias a posteriori dos postos de φ Médias a posteriori dos postos de φ Valores verdadeiros dos postos de φ Valores verdadeiros dos postos de φ 2 Figura 4.12: Gráficos de dispersão dos postos de φ 1 e φ 2. 27

44 A Figura 4.12 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ 1 e φ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Percebe-se uma distinguibilidade maior dos postos dos elementos do vetor paramétrico φ 2 do que os postos dos elementos do vetor paramétrico φ 1. Nota-se também que todos os postos verdadeiros dos elementos desses vetores paramétricos estão dentro de seu intervalo de credibilidade de 95%. Médias a posteriori dos postos de θ Médias a posteriori dos postos de θ Valores verdadeiros dos postos de θ Valores verdadeiros dos postos de θ 2 Figura 4.13: Gráficos de dispersão dos postos de θ 1 e θ 2. Médias a posteriori das probabilidades Valores verdadeiros das probabilidades Médias a posteriori dos preditores não lineares Valores verdadeiros dos preditores não lineares Figura 4.14: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde). 28

45 A Figura 4.13 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ 1 e θ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Observa-se que os postos dos elementos do vetor paramétrico θ 2 possuem uma menor variabilidade e uma maior distinguibilidade do que os postos dos elementos do vetor paramétrico θ 1, ao considerar os valores extremos desses vetores paramétricos. De fato, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 95,5% e 95% para os vetores paramétricos θ 1 e θ 2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 96,14%. A Figura 4.14 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa predição. De modo geral, o ajuste dos preditores não lineares observados também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade Estimação com duas constantes de normalização Neste caso, consideraram-se duas constantes de normalização distintas no modelo. Além disso, foram utilizadas as seguintes distribuições a priori truncadas para os parâmetros em ambas as dimensões de Φ: φ 3,1 N + (0; 9), φ 9,1 N (0; 9), φ 9,2 N (0; 9) e φ 16,2 N + (0; 9). Fixou-se σ 2 θ 2 = 1 e foram utilizadas as seguintes distribuições a priori para os parâmetros γ 1 e γ 2 : γ 1 N + (0; 1000) e γ 2 N + (0; 1000). Quanto aos valores iniciais de γ 1 e γ 2, considerou-se γ (0) 1 = γ (0) 2 = 0, 29 (para a primeira cadeia) e γ (0) 1 = γ (0) 2 = 0, 31 (para a segunda cadeia). Os valores iniciais e distribuições a priori especificados aos outros parâmetros foram idênticos aos do modelo utilizado na Seção Por fim, em ambos os modelos, tanto o procedimento de inferência quanto o número de iterações do MCMC, o período de aquecimento e a seleção da amostra foram feitos exatamente da mesma forma que na Seção As Figuras 4.15, 4.16 e 4.17 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ 1, γ 2, φ 3,1, φ 9,1, φ 9,2 e φ 16,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros. De fato, similarmente à Seção 4.1.1, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo 29

46 nem foi identificado problema de autocorrelação serial ao utilizar uma defasagem igual a 800. Nota-se também que não foram gerados valores próximos de zero via MCMC, mostrando que o Figura 4.15: Gráficos de γ 1 (à esquerda) e de γ 2 (à direita) após período de aquecimento e da retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Figura 4.16: Gráficos da amostra da distribuição a posteriori de φ 3,1 (à esquerda) e de φ 9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. 30

47 Figura 4.17: Gráficos da amostra da distribuição a posteriori de φ 9,2 (à esquerda) e de φ 16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Tabela 4.4: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori. Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ 1 0,30 0,35 0,07 0,35 0,22 0,51 γ 2 0,30 0,41 0,08 0,40 0,28 0,58 µ β 1,00 1,00 0,13 0,99 0,75 1,28 µ φ1 0-0,23 0,28-0,23-0,77 0,33 µ φ2 0-0,24 0,36-0,23-0,93 0,41 σα 2 0,20 0,18 0,07 0,18 0,05 0,33 σβ 2 0,20 0,16 0,10 0,13 0,03 0,40 σφ 2 1 3,25 0,95 0,57 0,79 0,30 2,48 σφ 2 2 3,25 1,79 0,86 1,63 0,67 4,04 emprego das distribuições a priori truncadas para esses parâmetros foi adequado. A Tabela 4.4 mostra estatísticas descritivas da distribuição a posteriori e estimativas intervalares dos parâmetros γ 1 e γ 2 e dos hiperparâmetros do modelo. Semelhamente à Seção 4.1.1, observa-se que, dentre os parâmetros dessa tabela, apenas o valor verdadeiro do hiperparâmetro σφ 2 1 está fora do intervalo de credibilidade de 95%. 31

48 A Figura 4.18 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação entre parênteses. Similarmente aos resultados da Seção 4.1.1, pode-se verificar, por essa figura, que os parâmetros foram bem estimados, com exceção do vetor paramétrico α, para o qual se observa um leve problema de escala. Nota-se ainda que a segunda dimensão de Φ e Θ Médias a posteriori de α Médias a posteriori de φ Valores verdadeiros de α (corr = 0,61) Valores verdadeiros de φ 2 (corr = 0,97) Médias a posteriori de β Médias a posteriori de θ Valores verdadeiros de β (corr = 0,65) Valores verdadeiros de θ 1 (corr = 0,71) Médias a posteriori de φ Médias a posteriori de θ Figura 4.18: Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Valores verdadeiros de φ 1 (corr = 0,95) Valores verdadeiros de θ 2 (corr = 0,85) Médias a posteriori dos postos de φ Médias a posteriori dos postos de φ Valores verdadeiros dos postos de φ Valores verdadeiros dos postos de φ 2 Figura 4.19: Gráficos de dispersão dos postos de φ 1 e φ 2. 32

49 continua sendo melhor estimada do que a primeira. A Figura 4.19 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ 1 e φ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Observa-se uma distinguibilidade maior dos postos dos elementos do vetor paramétrico φ 2 do que os postos dos elementos do vetor paramétrico φ 1. Nota-se também que todos os postos verdadeiros dos elementos desses vetores paramétricos estão dentro de seu intervalo de credibilidade de 95%. Médias a posteriori dos postos de θ Médias a posteriori dos postos de θ Valores verdadeiros dos postos de θ Valores verdadeiros dos postos de θ 2 Figura 4.20: Gráficos de dispersão dos postos de θ 1 e θ 2. Médias a posteriori das probabilidades Valores verdadeiros das probabilidades Médias a posteriori dos preditores não lineares Valores verdadeiros dos preditores não lineares Figura 4.21: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde). 33

50 A Figura 4.20 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ 1 e θ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Analogamente à Seção 4.1.1, verifica-se que os postos dos elementos do vetor paramétrico θ 2 possuem uma menor variabilidade e uma maior distinguibilidade do que os postos dos elementos do vetor paramétrico θ 1, ao considerar os valores extremos desses vetores paramétricos. No entanto, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 95% e 96% para os vetores paramétricos θ 1 e θ 2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 95,07%. A Figura 4.21 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Similarmente à Seção 4.1.1, percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa predição. De modo geral, o ajuste dos preditores não lineares também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade. Ao realizar uma análise comparativa com a Seção 4.1.1, conclui-se que, para este caso específico, não houve diferenças significativas entre as estimativas pontuais e intervalares para os parâmetros dos dois modelos. O mesmo ocorre para o ajuste das probabilidades e dos preditores não lineares. Esse resultado é coerente com o esperado, já que os dados foram simulados com apenas uma constante de normalização. 4.2 Dados gerados com duas constantes de normalização Nesta seção, gerou-se um conjunto de dados segundo o modelo proposto nas Equações 3.2, 3.3 e 3.4 e supôs-se γ 1 = 0, 2 e γ 2 = 0, 4, ou seja, foram consideradas duas constantes de normalização, com γ 1 γ 2. Os demais parâmetros foram gerados das seguintes distribuições: α i N(0; 0, 2); β j N(1; 0, 2); θ i,k N(0; 1); φ j,k 0, 5N( 1, 5; 1) + 0, 5N(1, 5; 1), para i = 1,..., 200, j = 1,..., 20 e k = 1, 2. A escolha de seus valores foi feita de modo a evitar a obtenção de uma matriz social esparsa, isto é, uma matriz com uma quantidade elevada de zeros. Similarmente à Seção 4.1, foram impostas duas restrições: cada usuário deveria seguir ao menos um ator político, que, por sua vez, deveria ser seguido por pelo menos 10 usuários. 34

51 Evita-se, assim, a possibilidade de haver usuários com ínfimo interesse político e atores políticos com popularidade muito baixa. A Figura 4.22 apresenta o histograma referente às probabilidades verdadeiras de se obter sucesso, π i,j, propostas na Equação 3.4. Similarmente à Seção 4.1, observa-se, pela Figura 4.22, a presença de muitas probabilidades iguais ou próximas de zero. A Tabela 4.5 apresenta a proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias, que, neste caso, é referente à expressão (θ 1 φ 1 ) 2 + (θ 2 φ 2 ) 2. Por fim, a Figura 4.23 mostra a frequência de sucessos e fracassos para cada intervalo de distâncias. Analogamente à Seção 4.1, percebe-se que há um predomínio de sucessos para distâncias pequenas, mas quanto mais se aumenta o valor da distância, maior é a supremacia dos fracassos sobre os sucessos. Conforme mencionado anteriormente na Seção 4.1, esse resultado coincide com o esperado, pois indivíduos mais próximos no espaço latente tendem a se associar com Densidade Probabilidades verdadeiras Figura 4.22: Histograma das probabilidades verdadeiras. Tabela 4.5: Proporção de sucessos e fracassos em relação ao total para cada intervalo de distâncias. Intervalo Fracasso Sucesso 0 a 5 0, , a 10 0, , a 15 0, , a 20 0, , a 25 0, , a 30 0, ou mais 0,

52 maior probabilidade. Resultado similar também pode ser verificado pelas Figuras 4.24 e A Figura 4.24 mostra o boxplot de θ 1 versus φ 1, que foi construído a partir da ordenação de φ 1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 1 que o seguem no Twitter. A Figura 4.25 apresenta o boxplot de θ 2 versus φ 2, o qual foi construído analogamente às condições da Figura Frequência Sucesso Fracasso 0 a 5 5 a a a a a ou mais Intervalo Figura 4.23: Frequências de sucessos e fracassos para cada intervalo de distâncias. θ φ (1), 1 φ (5), 1 φ (10), 1 φ (15), 1 φ (20), 1 Figura 4.24: Boxplot de θ 1 versus φ 1, que foi construído a partir da ordenação de φ 1 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 1 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 1 que o seguem no Twitter. 36

53 θ φ (1), 2 φ (5), 2 φ (10), 2 φ (15), 2 φ (20), 2 Figura 4.25: Boxplot de θ 2 versus φ 2, que foi construído a partir da ordenação de φ 2 pelos seus postos verdadeiros. Para cada elemento do vetor paramétrico φ 2 deste boxplot, consideraram-se apenas aqueles elementos do vetor paramétrico θ 2 que o seguem no Twitter Percebe-se, pela Figura 4.24, para os casos em que há sucesso, uma certa ascendência dos valores associados à primeira dimensão de Θ conforme se aumenta o valor associado à primeira dimensão de Φ. Pela Figura 4.25, verifica-se que isso também é satisfeito para a segunda dimensão de Θ e Φ. Analogamente à Seção 4.1, para a estimação do modelo explicitado no Capítulo 3, truncaramse as distribuições a priori para dois parâmetros de cada dimensão de Φ. Então, foram considerados dois casos em separado: no primeiro, utilizou-se o modelo supondo uma constante de normalização, ou seja, γ = γ 1 = γ 2 (Seção 4.2.1), e no segundo, foram estimadas duas constantes de normalização (Seção 4.2.2). Também foram utilizadas duas cadeias em ambos os modelos. Por fim, tanto o procedimento de inferência quanto o número de iterações do MCMC, o período de aquecimento e a seleção da amostra foram feitos exatamente da mesma forma que na Seção Estimação com uma constante de normalização Neste caso, considerou-se o modelo com apenas uma constante de normalização, assumindose que γ = γ 1 = γ 2. Utilizaram-se as seguintes distribuições a priori para os parâmetros γ e σθ 2 2, respectivamente: γ N + (0; 1000) e σθ 2 2 GI(0, 01; 0, 01). Com relação aos valores iniciais de 37

54 γ e σ 2 θ 2, considerou-se γ (0) = 0, 29 e σ 2 θ 2 (0) = 1 0, 9 (para a primeira cadeia) e γ(0) = 0, 31 Figura 4.26: Gráfico da amostra da distribuição a posteriori de γ para as duas cadeias, após período de aquecimento e após a retirada das defasagens. A reta em preto representa o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Figura 4.27: Gráficos da amostra da distribuição a posteriori de φ 3,1 (à esquerda) e de φ 9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. 38

55 Figura 4.28: Gráficos da amostra da distribuição a posteriori de φ 9,2 (à esquerda) e de φ 16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Tabela 4.6: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori. Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ - 0,23 0,07 0,22 0,11 0,37 µ β 1,00 1,00 0,14 0,99 0,73 1,28 µ φ1 0 0,02 0,39 0,03-0,76 0,70 µ φ2 0-0,33 0,53-0,30-1,46 0,71 σα 2 0,20 0,21 0,07 0,21 0,08 0,36 σβ 2 0,20 0,08 0,08 0,05 0,01 0,28 σφ 2 1 3,25 1,24 0,94 1,00 0,22 3,40 σφ 2 2 3,25 4,79 2,64 4,09 1,74 11,37 σθ 2 2 1,00 2,34 0,95 2,14 1,17 4,80 e σθ 2 (0) 2 = 1 (para a segunda cadeia). Os outros valores iniciais especificados aos parâmetros 1, 1 foram os mesmos mencionados na Seção 4.1. Além disso, foram empregadas as seguintes distribuições a priori truncadas para os parâmetros em ambas as dimensões de Φ: φ 3,1 N + (0; 9), φ 9,1 N (0; 9), φ 9,2 N (0; 9) e φ 16,2 N + (0; 9). Similarmente às Seções e 4.1.2, as distribuições a priori destes elementos da matriz de parâmetros Φ foram 39

56 truncadas porque estes são os valores extremos das duas dimensões. Para os outros parâmetros, usaram-se distribuições a priori idênticas às da Seção 4.1. As Figuras 4.26, 4.27 e 4.28 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ, φ 3,1, φ 9,1, φ 9,2 e φ 16,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros. De fato, similarmente à Seção 4.1.2, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo nem foi identificado problema de autocorrelação serial ao utilizar uma defasagem igual a 800. Observa-se também que não foram gerados valores próximos de zero para esses parâmetros via MCMC, indicando que as distribuições a priori truncadas funcionaram de forma adequada. A Tabela 4.6 mostra estatísticas descritivas da distribuição a posteriori e estimativas intervalares do parâmetro γ e dos hiperparâmetros do modelo. Observa-se que, dentre os parâmetros dessa tabela, apenas o valor verdadeiro do hiperparâmetro σθ 2 2 está fora de seu intervalo de credibilidade de 95%. Além disso, é interessante notar que o valor estimado pela média a posteriori para o parâmetro γ é de aproximadamente 0, 227 para o conjunto de dados que, na verdade, têm duas constantes de normalização. Médias a posteriori de α Médias a posteriori de φ Valores verdadeiros de α (corr = 0,60) Valores verdadeiros de φ 2 (corr = 0,98) Médias a posteriori de β Médias a posteriori de θ Valores verdadeiros de β (corr = 0,62) Valores verdadeiros de θ 1 (corr = 0,55) Médias a posteriori de φ Médias a posteriori de θ Figura 4.29: Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Valores verdadeiros de φ 1 (corr = 0,90) Valores verdadeiros de θ 2 (corr = 0,89) A Figura 4.29 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação 40

57 entre parênteses. Realizando uma análise comparativa com a Seção 4.1.2, pode-se verificar, por essa figura, que houve pequena piora para os vetores paramétricos β e θ 1, os quais possuem um leve problema de escala. Todavia, há maior importância em verificar se a ordenação dos vetores paramétricos estimados pela média a posteriori é semelhante à obtida pelos valores verdadeiros dos parâmetros e, de fato, constatou-se que isso é satisfeito neste modelo. Médias a posteriori dos postos de φ Médias a posteriori dos postos de φ Valores verdadeiros dos postos de φ Valores verdadeiros dos postos de φ 2 Figura 4.30: Gráficos de dispersão dos postos de φ 1 e φ 2. Médias a posteriori dos postos de θ Médias a posteriori dos postos de θ Valores verdadeiros dos postos de θ Valores verdadeiros dos postos de θ 2 Figura 4.31: Gráficos de dispersão dos postos de θ 1 e θ 2. A Figura 4.30 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ 1 e φ 2 e seus valores estimados pela média a posteriori (quadrado), com as 41

58 retas representando os seus intervalos de credibilidade de 95%. Percebe-se uma distinguibilidade maior dos postos dos elementos da segunda dimensão de Φ do que os postos dos elementos da primeira dimensão. Nota-se, porém, que todos os postos verdadeiros dos elementos do vetor paramétrico φ 1 estão dentro de seus intervalos de credibilidade de 95%. Ademais, o percentual de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% para o vetor paramétrico φ 2 é de 85%. A Figura 4.31 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ 1 e θ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Nota-se que os postos dos elementos do vetor paramétrico θ 2 possuem menor variabilidade e maior distinguibilidade do que os postos dos elementos do vetor paramétrico θ 1, ao considerar os valores extremos desses vetores paramétricos. No entanto, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 93,5% e 93% para os vetores paramétricos θ 1 e θ 2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 95,45%. Médias a posteriori das probabilidades Valores verdadeiros das probabilidades Médias a posteriori dos preditores não lineares Valores verdadeiros dos preditores não lineares Figura 4.32: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde). A Figura 4.32 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa 42

59 predição. De modo geral, o ajuste dos preditores não lineares observados também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade Estimação com duas constantes de normalização Neste caso, consideraram-se duas constantes de normalização distintas no modelo. Além disso, foram utilizadas as seguintes distribuições a priori truncadas para os parâmetros em ambas as dimensões de Φ: φ 3,1 N + (0; 9), φ 9,1 N (0; 9), φ 9,2 N (0; 9) e φ 16,2 N + (0; 9). Além das restrições mencionadas no Capítulo 3, fixou-se σ 2 θ 2 = 1 e empregaram-se as seguintes distribuições a priori para os parâmetros γ 1 e γ 2 : γ 1 N + (0; 1000) e γ 2 N + (0; 1000). Para os outros parâmetros, usaram-se distribuições a priori idênticas às da Seção 4.1. Quanto aos valores iniciais, considerou-se γ (0) 1 = 0, 15 e γ (0) 2 = 0, 25 (para a primeira cadeia) e γ (0) 1 = 0, 3 e γ (0) 2 = 0, 5 (para a segunda cadeia). Para os outros parâmetros, os valores iniciais especificados foram os mesmos mencionados na Seção 4.1. Figura 4.33: Gráficos da amostra da distribuição a posteriori de γ 1 (à esquerda) e de γ 2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. As Figuras 4.33, 4.34 e 4.35 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ 1, γ 2, φ 3,1, φ 9,1, φ 9,2 e φ 16,2, após período de aquecimento e após a retirada das defasagens. Verifica-se que há convergência das cadeias desses parâmetros. 43

60 De fato, similarmente à Seção 4.2.1, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do modelo nem foi identificado problema de autocorrelação Figura 4.34: Gráficos da amostra da distribuição a posteriori de φ 3,1 (à esquerda) e de φ 9,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Figura 4.35: Gráficos da amostra da distribuição a posteriori de φ 9,2 (à esquerda) e de φ 16,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As retas em preto representam o valor verdadeiro desses parâmetros, e as linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. 44

61 serial ao utilizar uma defasagem igual a 800. Observa-se ainda que não foram gerados valores próximos de zero via MCMC e que todos os valores verdadeiros dos parâmetros das Figuras 4.33, 4.34 e 4.35 estão dentro do intervalo de credibilidade de 95%, mostrando que o emprego das distribuições a priori truncadas para esses parâmetros foi adequado. Tabela 4.7: Valores verdadeiros, estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori. Parâmetro Valor verdadeiro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ 1 0,20 0,22 0,08 0,21 0,06 0,37 γ 2 0,40 0,49 0,07 0,49 0,35 0,63 µ β 1,00 0,99 0,15 0,99 0,66 1,29 µ φ1 0 0,02 0,61 0,04-0,79 0,78 µ φ2 0-0,22 0,34-0,21-0,88 0,43 σα 2 0,20 0,21 0,07 0,21 0,08 0,35 σβ 2 0,20 0,08 0,07 0,06 0,01 0,28 σφ 2 1 3,25 1,30 1,29 1,00 0,21 4,44 σφ 2 2 3,25 2,01 0,89 1,84 0,89 4,23 Médias a posteriori de α Médias a posteriori de φ Valores verdadeiros de α (corr = 0,60) Valores verdadeiros de φ 2 (corr = 0,98) Médias a posteriori de β Médias a posteriori de θ Valores verdadeiros de β (corr = 0,61) Valores verdadeiros de θ 1 (corr = 0,56) Médias a posteriori de φ Médias a posteriori de θ Figura 4.36: Gráficos de dispersão de α, β, φ 1, φ 2, θ 1 e θ Valores verdadeiros de φ 1 (corr = 0,90) Valores verdadeiros de θ 2 (corr = 0,89) 45

62 A Tabela 4.7 mostra estatísticas descritivas da distribuição a posteriori e estimativas intervalares dos parâmetros γ 1 e γ 2 e dos hiperparâmetros do modelo. Observa-se que os valores verdadeiros dos parâmetros dessa tabela estão dentro do intervalo de credibilidade de 95%, evidenciando acurácia em suas estimações. Além disso, observa-se que a probabilidade de γ 1 e γ 2 serem distintos é alta, indicando maior plausibilidade deste segundo modelo frente ao primeiro. A Figura 4.36 mostra os gráficos de dispersão entre os valores verdadeiros dos vetores paramétricos do modelo e seus valores estimados (pela média a posteriori), com a correlação entre parênteses. Similarmente aos resultados da Seção 4.2.1, pode-se verificar, por essa figura, que existe um leve problema de escala em α, β e θ 1. No entanto, há maior relevância em averiguar se a ordenação dos vetores paramétricos estimados pela média a posteriori é semelhante à obtida pelos valores verdadeiros dos parâmetros e constatou-se que, de fato, isso é satisfeito para este modelo. Percebe-se também que a segunda dimensão de Φ e Θ continua sendo melhor estimada do que a primeira dimensão destas matrizes de parâmetros. Médias a posteriori dos postos de φ Médias a posteriori dos postos de φ Valores verdadeiros dos postos de φ Valores verdadeiros dos postos de φ 2 Figura 4.37: Gráficos de dispersão dos postos de φ 1 e φ 2. A Figura 4.37 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos φ 1 e φ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Semelhantemente aos resultados da Seção 4.2.1, percebe-se uma distinguibilidade maior dos postos dos elementos do vetor paramétrico φ 2 do que os postos dos elementos do vetor paramétrico φ 1. Nota-se, no entanto, que todos os postos verdadeiros dos elementos do vetor paramétrico φ 1 estão dentro de seus intervalos de credibilidade de 95%. Além disso, foi obtida a porcentagem de 46

63 elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% para o vetor paramétrico φ 2 e o valor foi de 85%. Médias a posteriori dos postos de θ Médias a posteriori dos postos de θ Valores verdadeiros dos postos de θ Valores verdadeiros dos postos de θ 2 Figura 4.38: Gráficos de dispersão dos postos de θ 1 e θ 2. Médias a posteriori das probabilidades Valores verdadeiros das probabilidades Médias a posteriori dos preditores não lineares Valores verdadeiros dos preditores não lineares Figura 4.39: Gráficos de dispersão das probabilidades (em azul) e dos preditores não lineares (em verde). A Figura 4.38 mostra os gráficos de dispersão entre os valores verdadeiros dos postos dos vetores paramétricos θ 1 e θ 2 e seus valores estimados pela média a posteriori (quadrado), com as retas representando os seus intervalos de credibilidade de 95%. Analogamente aos resultados da Seção 4.2.1, pode-se verificar que os postos dos elementos do vetor paramétrico θ 2 possuem 47

64 uma menor variabilidade e uma maior distinguibilidade do que os postos dos elementos do vetor paramétrico θ 1, ao considerar os valores extremos desses vetores paramétricos. No entanto, foram obtidas as porcentagens de elementos cujos postos verdadeiros estão dentro do intervalo de credibilidade de 95% e os seus valores foram de 94,5% e 93% para o vetor paramétrico θ 1 e para o vetor paramétrico θ 2, respectivamente. Obteve-se também a taxa de cobertura para as matrizes de parâmetros Θ e Φ, isto é, a porcentagem de vezes que o verdadeiro valor do parâmetro ou hiperparâmetro está dentro de seu intervalo de credibilidade. O valor obtido dessa taxa foi de 93,18%. A Figura 4.39 mostra os gráficos de dispersão entre os valores verdadeiros das probabilidades e dos preditores não lineares e seus valores estimados (pela média a posteriori). Similarmente à Seção 4.2.1, percebe-se que, apesar de um leve problema de escala, em geral, as probabilidades tiveram uma boa predição. De modo geral, o ajuste dos preditores não lineares também foi satisfatório, havendo maior dificuldade de predição para valores pequenos, que, por sua vez, possuem menor separabilidade. Ao realizar uma análise comparativa com a Seção 4.2.1, conclui-se que, para este caso específico, os parâmetros foram bem estimados, em ambos os modelos, havendo um leve problema de escala em α, β e θ 1. Não se constatam, portanto, diferenças muito significativas para as estimativas dos parâmetros e para o ajuste das probabilidades e dos preditores não lineares dos modelos, com exceção da segunda dimensão das matrizes de parâmetros Θ e Φ, para a qual se observa maior variabilidade no modelo da Seção Isso se deve ao fato de, neste caso, o modelo incluir apenas uma constante de normalização, impondo, assim, mesmo peso para as distâncias entre as posições latentes nas duas dimensões no cálculo da probabilidade. Por esse motivo, o primeiro modelo tem uma recuperação da estrutura de probabilidade dos dados inferior à do segundo modelo, o que influi diretamente na variabilidade das estimativas. Neste capítulo, foi considerado um conjunto limitado de dados artificiais, devido ao elevado tempo computacional associado a este caso bidimensional. Além disso, vários outros estudos simulados foram feitos para melhor entendimento do modelo e da estimação, mas que não serão apresentados nesse texto. Outrossim, avaliou-se como satisfatório o resultado do modelo com duas constantes de normalização, que permite uma ponderação diferente para as distâncias entre as posições latentes nas duas dimensões. No próximo capítulo, este modelo será aplicado a dados reais do Twitter. Espera-se, pois, que tal modelo tenha uma boa estimação, uma vez que, de acordo com a análise comparativa deste capítulo, ele mostrou ser mais flexível do que o modelo que contempla apenas uma constante de normalização. 48

65 Capítulo 5 Aplicação a dados reais O conjunto de dados utilizados neste capítulo foi empregado no trabalho de Souza (2017)1 e se refere aos deputados federais e senadores que estavam em exercício no início de julho de 2017 com conta ativa no Twitter nessa época. Nesse contexto, usuário ativo é o indivíduo que por meio de sua conta no Twitter enviou pelo menos uma mensagem (tweet) ao longo do ano de Cada ator político tinha de ser seguido por pelo menos 100 usuários comuns (deputados ou senadores conforme definição do Capítulo 3). Sobraram ao final 330 deputados, 71 senadores e 107 atores políticos, isto é, n = 401 e m = 107. Serão estimadas posições ideológicas para deputados federais, senadores e atores políticos em um espaço latente bidimensional, consistindo, portanto, em uma tentativa de interpretar e separar a estrutura latente dos dados do Twitter em duas dimensões. Imagina-se que as posições ideológicas estejam relacionadas com o antagonismo entre esquerda e direita e com a dicotomia entre oposição e governo. A priori definir-se-á o modelo imaginando a primeira dimensão como sendo o eixo esquerda-direita e a segunda dimensão como sendo o eixo oposição-governo. Vale ressaltar que se impõe, no contexto desta dissertação, independência entre os eixos, o que não necessariamente retrata a realidade. Sendo assim, os resultados obtidos na estimação devem ser interpretados com cautela. Para a estimação do modelo no espaço bidimensional, considerar-se-ão duas constantes de normalização γ 1 e γ 2 e as mesmas restrições do Capítulo 4, isto é, µ α = 0, µ θ1 = µ θ2 = 0 e σθ 2 1 = σθ 2 2 = 1. Além disso, para alguns elementos da rede, será empregada a distribuição a priori N (0; 9) para indivíduos que se supõem a favor da esquerda, levando em conta o eixo das abscissas. Outrossim, para alguns outros componentes da rede, usar-se-á a distribuição a priori N + (0; 9) para indivíduos que se supõem a favor da direita, levando em conta o eixo das 1Agradecimentos a Souza (2017) por disponilizar os dados 49

66 abscissas, e para indivíduos pró-governo, considerando o eixo das ordenadas. Para alguns elementos da rede, a escolha das distribuições a priori será baseada em resultados históricos. De acordo com análises dispostas em Power e Zucco (2011), o costuma se distinguir significativamente de outros grandes partidos como DEM, PSDB e (atual MDB), se posicionando à esquerda no eixo esquerda-direita. Vale ressaltar que a ex-presidente da República do Brasil, Dilma Roussef, do, teve seu afastamento em 17 de abril de 2016 e seu processo de impeachment terminou em 31 de agosto de Portanto, Michel Temer, do (atual MDB) já estava na presidência, cuja posse foi em 31 de agosto de Porém, como Michel Temer tinha pouco tempo no cargo de presidente da República do Brasil, o polo governo será referenciado à Dilma Roussef, pois o ficou por longo tempo no poder. As demais escolhas das distribuições a priori referentes ao eixo oposição-governo serão baseadas no trabalho de Zucco e Lauderdale (2011). O PSDB ora é considerado um partido de centro, ora é considerado um partido de direita, mas se percebe que, em geral, este partido tem migrado, ao longo dos anos, para a direita da escala. Sendo assim, muitos cientistas políticos têm adotado, nos últimos anos, uma classificação mais específica para este partido: centro-direita (veja, por exemplo, Moraes (2018)). Além disso, de acordo com os resultados expostos em Zucco e Lauderdale (2011) (baseados em modelos de votações nominais de 1989 a 2010), no primeiro eixo, o PCdoB fica à esquerda da escala e costuma se posicionar próximo do no segundo eixo ( oposição-governo ). Sendo assim, serão usadas as seguintes distribuições a priori truncadas para os elementos da primeira dimensão de Φ: φ 36,1 N (0; 9) (parâmetro associado a Alexandre Padilha, do, truncando-o a favor da esquerda ), φ 47,1 N (0; 9) (parâmetro associado a Geraldo Alckmin, do PSDB, truncando-o a favor da direita ) e φ 106,1 N (0; 9) (parâmetro associado a Manuela D Ávila, do PCdoB, truncando-o a favor da esquerda ). Para a segunda dimensão, atribuir-se-ão as distribuições a priori φ 36,2 N + (0; 9) (parâmetro associado a Alexandre Padilha, do, truncando-o a favor do governo ) e φ 106,2 N + (0; 9) (parâmetro associado a Manuela D Ávila, do PCdoB, truncando-o a favor do governo ). Para os outros parâmetros, empregar-se-ão distribuições a priori idênticas às do Capítulo 4. Além disso, utilizar-se-ão duas cadeias diferentes via MCMC. No que diz respeito aos valores iniciais, segundo Barberá (2015) e Souza (2017), recomendase inicializar as cadeias de alguns elementos dos vetores paramétricos φ 1 e φ 2 com os valores -1 e 1 a fim de tentar evitar o percalço inerente à reflexão de escala, que se dá quando c 3 = 1, apresentado no Apêndice A ao se mencionar o problema de invariância à reflexão. Serão adicionados também valores iniciais iguais a -1 e 1 para alguns elementos de Θ para facilitar a 50

67 convergência das cadeias e auxiliar na identificação do modelo. A Tabela 5.1 apresenta a lista dos partidos cujos usuários e atores políticos do Twitter têm, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou 1. Para os outros elementos de Φ e Θ, inicializou-se em zero. A maioria destes valores iniciais foi escolhida tomando por base os trabalhos de Zucco (2009) e Zucco e Lauderdale (2011). Tabela 5.1: Lista dos partidos cujos usuários e atores políticos do Twitter tiveram, em ambas as cadeias, pelo menos um de seus elementos de Φ ou de Θ com inicialização em -1 ou 1. Partidos Primeira dimensão Segunda dimensão DEM 1 0 PCdoB -1 1 PDT PP 1-1 PPS 0 1 PR 1 0 PSDB 1 0 PSOL B 1-1 Com relação aos outros parâmetros, consideraram-se os seguintes valores iniciais para os parâmetros γ 1 e γ 2 : γ (0) 1 = γ (0) 2 = 0, 2 (para a primeira cadeia) e γ (0) 1 = γ (0) 2 = 0, 4 (para a segunda cadeia). Os outros valores iniciais, para ambas as cadeias, foram: µ (0) β = µ (0) φ 1 = µ (0) φ 2 = 0, σ α(0) 2 = σβ 2 (0) = 1 5 e σ2 (0) φ 1 = σφ 2 (0) 2 = 1 0, 3. Geraram-se duas cadeias de tamanho via MCMC. Posteriormente, realizou-se o monitoramento de convergência das cadeias por meio de inspeção gráfica, na qual se observaram as trajetórias de duas cadeias diferentes partindo de valores iniciais distintos. Descartaram-se as primeiras iterações, que serviram como amostra de aquecimento. Ademais, utilizou-se uma defasagem igual a 80 e obteve-se, assim, uma amostra final de tamanho 650 para cada parâmetro (sendo 325 para cada cadeia)23. 2Os cálculos foram realizados em um notebook Intel Core i3, 2.4GHz, 4 GB RAM, 64 bits, Windows 10, R (64-bit), JAGS 4.3.0, rjags 4-6, e o tempo de execução estimado foi de 13 horas. 3Visando reduzir o tempo computacional, foi empregado o pacote snowfall (Knaus, 2015) do programa estatístico livre R (R Development Core Team, 2014), que usa computação paralela, na qual o problema pode ser 51

68 Nesta dissertação, adotou-se como critério de seleção de modelos o critério de informação do desvio (DIC, abreviação em inglês de Deviance Information Criterion), proposto por Spiegelhalter et al. (2002). De acordo com ele, o modelo com melhor ajuste será aquele que apresentar o menor valor do DIC. O valor desse critério obtido para este modelo bidimensional foi de , 33. Com o mesmo tamanho de amostra de aquecimento, número de defasagens e tamanho de amostra final, obteve-se, via MCMC, o DIC para o modelo unidimensional (cujos resultados não serão apresentados por serem bem similares ao de Souza (2017)) e o valor foi de , 85, superior ao valor alcançado no modelo com duas dimensões. O modelo bidimensional, utilizado nesta dissertação, apresentou, portanto, o melhor ajuste segundo o critério DIC. Isso indica que a segunda dimensão (interpretada nesta dissertação como oposiçãogoverno ) tem uma influência relevante na probabilidade de um usuário qualquer seguir um certo ator político no Twitter. Figura 5.1: Gráficos da amostra da distribuição a posteriori de γ 1 (à esquerda) e de γ 2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95%. As Figuras 5.1, 5.2, 5.3 e 5.4 mostram os gráficos da amostra da distribuição a posteriori para as duas cadeias dos parâmetros γ 1, γ 2, φ 36,1, φ 106,1, φ 36,2 e φ 106,2, após período de aquecimento e após a retirada das defasagens. Percebe-se que há convergência das cadeias desses parâmetros embora as cadeias apresentem autocorrelações significativas para defasagens grandes. De fato, não se encontraram percalços quanto à convergência das cadeias dos outros parâmetros do dividido em partes menores que podem ser executadas ao mesmo tempo. Para mais detalhes da importância do uso deste pacote conjuntamente com o JAGS, veja, por exemplo, Gregory (2017). 52

69 modelo. Observa-se também que, em todos os casos, não foram gerados valores próximos de zero para esses parâmetros via MCMC, mostrando que o emprego das distribuições a priori truncadas para esses parâmetros foi adequado. Figura 5.2: Gráficos da amostra da distribuição a posteriori de φ 36,1 (à esquerda) e de φ 47,1 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Figura 5.3: Gráficos da amostra da distribuição a posteriori de φ 106,1 para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. 53

70 Figura 5.4: Gráficos da amostra da distribuição a posteriori de φ 36,2 (à esquerda) e de φ 106,2 (à direita) para as duas cadeias, após período de aquecimento e após a retirada das defasagens. As linhas tracejadas em azul representam o intervalo de credibilidade de 95% da distribuição a posteriori. Tabela 5.2: Estatísticas descritivas e intervalos de credibilidade de 95% da distribuição a posteriori. Parâmetro Média Desvio padrão Mediana Lim. inf. Lim. sup. γ 1 0,44 0,06 0,43 0,34 0,55 γ 2 0,29 0,07 0,28 0,19 0,44 µ β 0,73 0,12 0,73 0,48 0,97 µ φ1-0,02 0,14-0,01-0,31 0,25 µ φ2 0,05 0,20 0,06-0,36 0,42 φ 36,1-2,18 0,29-2,15-2,78-1,62 φ 47,1 1,77 0,31 1,74 1,24 2,45 φ 106,1-1,48 0,28-1,48-2,03-0,95 φ 36,2 1,38 0,48 1,35 0,43 2,39 φ 106,2 1,61 0,46 1,57 0,76 2,64 σα 2 2,67 0,22 2,66 2,27 3,15 σβ 2 0,82 0,13 0,81 0,60 1,12 σφ 2 1 1,12 0,29 1,08 0,64 1,86 σφ 2 2 1,06 0,46 0,97 0,42 2,12 54

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Aula 14. Aula de hoje. Aula passada

Aula 14. Aula de hoje. Aula passada Aula 14 Aula passada Autovalores, autovetores, decomposição Convergência para estacionaridade Tempo de mistura Spectral gap Tempo de mistura de passeios aleatórios Aula de hoje Caminho amostral Teorema

Leia mais

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora Capítulo 1 Introdução A informação que se tem sobre uma quantidade de interesse θ é fundamental na Estatística. O verdadeiro valor de θ é desconhecido e a idéia é tentar reduzir este desconhecimento. Além

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

1 Probabilidade - Modelos Probabilísticos

1 Probabilidade - Modelos Probabilísticos 1 Probabilidade - Modelos Probabilísticos Modelos probabilísticos devem, de alguma forma, 1. identificar o conjunto de resultados possíveis do fenômeno aleatório, que costumamos chamar de espaço amostral,

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Motivação Motivação Por

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Motivação Por exemplo, queremos analisar a série

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Antônio Carlos Roque da Silva Filho e Cristiano R. F. Granzotti 26 de junho de 2017 Os exercícios desta lista devem ser resolvidos

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Considere o problema de encontrar o valor que

Leia mais

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística 1 Introdução Definição: Estatística é um conjunto de conceitos e métodos científicos para coleta, organização, descrição, análise

Leia mais

Uma Avaliação do Erro Tipo II no Uso do Teste t-student

Uma Avaliação do Erro Tipo II no Uso do Teste t-student Uma Avaliação do Erro Tipo II no Uso do Teste t-student Cleber Giugioli Carrasco Thiago Santana Lemes 1 Unidade Universitária de Ciências Exatas e Tecnológicas, Universidade Estadual de Goiás, UnUCET/UEG,

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

Métodos Computacionais para inferência estatística

Métodos Computacionais para inferência estatística Métodos Computacionais para inferência estatística Wagner Hugo Bonat LEG: Laboratório de Estatística e Geoinformação Universidade Federal do Paraná 30 de julho de 2012 Bonat et. al (LEG/UFPR) MCIE 30 de

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros ESQUEMA DO CAPÍTULO 7.1 INTRODUÇÃO 7.2 DISTRIBUIÇÕES AMOSTRAIS E TEOREMA DO LIMITE CENTRAL 7.3 CONCEITOS GERAIS DE ESTIMAÇÃO PONTUAL 7.3.1 Estimadores

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC 1 / 1 AGA 0505- Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC Laerte Sodré Jr. 1o. semestre, 2018 2 / 1 Inferência Bayesiana inferência bayesiana consideremos um conjunto de dados D que

Leia mais

Inferências bayesianas com probabilidade

Inferências bayesianas com probabilidade Inferências bayesianas com probabilidade Qual é a relação entre inferência bayesiana e as distribuições probabiĺısticas recém descritas? Essa conexão é feita ao se estimar parâmetros da distribuição probabiĺıstica

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CESPE/UnB FUB/03 fa 5 4 3 CONHECIMENTOS ESPECÍFICOS 60 As distribuições B e C possuem os mesmos valores para os quartis Q e Q, e o quartil superior em B corresponde ao quartil central (Q ) da distribuição

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS

MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS Rodrigo José Pires Ferreira UFPE Cx. Postal 7462, Recife PE, 50.630-970 rodrigo@ufpe.br Adiel Teixeira de Almeida Filho UFPE Cx. Postal 7462,

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos Aula 2 ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos 1. DEFINIÇÕES FENÔMENO Toda modificação que se processa nos corpos pela ação de agentes físicos ou químicos. 2. Tudo o que pode ser percebido

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Monte Carlo via cadeias de Markov: o OpenBUGS

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Inferência Bayesiana - Aula 1 -

Inferência Bayesiana - Aula 1 - Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS 4 SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS Em muitos problemas de probabilidade que requerem o uso de variáveis aleatórias, uma completa especificação da função de densidade de probabilidade ou não está

Leia mais

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas Teoria da Estimação Fabricio Goecking Avelar Universidade Federal de Alfenas - Instituto de Ciências Exatas junho - 2018 Algumas distribuições importantes Sumário 1 Algumas distribuições importantes 2

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes

Leia mais

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial por Nícia Custódio Hansen DME - IM - UFRJ 2009 Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da

Leia mais

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2 SUMÁRIO 1 CONCEITOS BÁSICOS, 1 1.1 Introdução, 1 1.2 Conceitos Fundamentais, 2 1.2.1 Objetivo, 2 1.2.2 População e amostra, 2 1.3 Processos estatísticos de abordagem, 2 1.4 Dados estatísticos, 3 1.5 Estatística

Leia mais

Inferência estatística

Inferência estatística Inferência estatística Susana Barbosa Mestrado em Ciências Geofísicas 2013-2014 Inferência estatística Obtenção de conclusões sobre propriedades da população a partir das propriedades de uma amostra aleatória

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica 4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica 4. Elementos de inferência Bayesiana Gamerman [34] define que tanto o modelo Bayesiano quanto o freqüentista trabalham na presença de

Leia mais

ESTATÍSTICA BAYESIANA

ESTATÍSTICA BAYESIANA UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz INTRODUÇÃO A estatística clássica associa

Leia mais

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Vanessa Siqueira Peres da Silva 1 2 Daniel Furtado Ferreira 1 1 Introdução É comum em determinadas

Leia mais

Análise Bayesiana de Dados - Aula 1 -

Análise Bayesiana de Dados - Aula 1 - Análise Bayesiana de Dados - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

Mais sobre Modelos Continuos

Mais sobre Modelos Continuos Mais sobre Modelos Continuos Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 41 Transformação Linear da Uniforme Seja X uma variável aleatória

Leia mais

5 Avaliação dos estimadores propostos

5 Avaliação dos estimadores propostos 5 valiação dos estimadores propostos Este capítulo apresenta as medidas estatísticas usuais para avaliar a qualidade de estimadores e as expressões utilizadas para a estimação destas medidas, a partir

Leia mais

Conceito de Estatística

Conceito de Estatística Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir

Leia mais

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) 5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente

Leia mais

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

4 Método Proposto CR AD PA NDVI Descrição geral do modelo 34 4 Método Proposto 4.1. Descrição geral do modelo Neste trabalho, cada classe (cobertura vegetal) possui um HMM específico. Os estágios fenológicos correspondem a estados e os símbolos observáveis a

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS A distribuição dos tempos de permanência dos estudantes nos cursos de graduação de certa universidade é uma distribuição normal com média igual a 6 anos e desvio padrão igual

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros - parte I 2012/02 1 Introdução 2 3 4 5 Objetivos Ao final deste capítulo você deve ser capaz de: Entender estimação de parâmetros de uma distribuição

Leia mais

Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial

Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial Tese de Doutorado por Gustavo da Silva Ferreira Departamento de Métodos Estatísticos Instituto de Matemática Universidade

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Capítulo 4. Métodos Aproximados. 4.1 Computação Bayesiana. 4.2 Uma Palavra de Cautela

Capítulo 4. Métodos Aproximados. 4.1 Computação Bayesiana. 4.2 Uma Palavra de Cautela Capítulo 4 Métodos Aproximados 4.1 Computação Bayesiana Existem várias formas de resumir a informação descrita na distribuição a posteriori. Esta etapa frequentemente envolve a avaliação de probabilidades

Leia mais

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1 PREFÁCIO VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS xiii DO EXCEL... xv Capítulo 1 VARIÁVEIS E AMOSTRAS 1 VARIÁ VEIS 4 NÚMERO DE VARIÁVEIS 5 CLASSIFICAÇÃO DAS VARIÁVEIS 6 ESCALA DE MEDIÇÃO DAS VARIÁVEIS 7 POPULAÇÃO

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens

Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens por Vera Lúcia Filgueira dos Santos DME - IM - UFRJ 2009 Teoria de Resposta ao Item: uma abordagem generalizada

Leia mais

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI 1 Sumário 2 Introdução Técnicas de ESDA Matrizes de Proximidade Espacial Média Espacial Móvel (m i ) Indicadores Globais de Autocorrelação Espacial Índices Globais de Moran (I), Geary (C) e Getis e Ord

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva http://páginapessoal.utfpr.edu.br/ngsilva Estimação de Parâmetros Intervalo de Confiança Introdução A inferência estatística é o processo

Leia mais

Estudo sobre decodificação iterativa usando códigos de treliça

Estudo sobre decodificação iterativa usando códigos de treliça Revista de Engenharia e Pesquisa Aplicada, Volume 2, Número 1, 2016 Estudo sobre decodificação iterativa usando códigos de treliça Souza, I. M. M. Escola Politécnica de Pernambuco Universidade de Pernambuco

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

2 Medida de Incertezas: Fundamentos

2 Medida de Incertezas: Fundamentos 2 Medida de Incertezas: Fundamentos 2. Introdução O resultado de um processo de medição fornece uma determinada informação que usualmente é chamada de conhecimento. A fim de quantificar quão completo é

Leia mais

Universidade Federal de Viçosa Departamento de Estatística

Universidade Federal de Viçosa Departamento de Estatística Universidade Federal de Viçosa Departamento de Estatística Prova Seletiva para o Programa de Pós-Graduação em Estatística Aplicada e Biometria. Nível Doutorado - 22/nov/2013 Nome: Assinatura:. Número do

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança Prof. Marcos Pó Métodos Quantitativos para Ciências Sociais Distribuição amostral Duas amostragens iguais

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos 1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β

Leia mais

Elisângela Ap. da Silva Lizzi

Elisângela Ap. da Silva Lizzi Elisângela Ap. da Silva Lizzi RESENHA DO ARTIGO "Gravidez na adolescência e características socioeconômicas dos municípios do Estado de São Paulo, Brasil: análise espacial" O artigo trata de um problema

Leia mais

Mais Informações sobre Itens do Relatório

Mais Informações sobre Itens do Relatório Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA) 1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância

Leia mais

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra Análise da Regressão múltipla: MQO Assintótico Capítulo 5 do Wooldridge Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades

Leia mais