UNIDADE II Conceitos e Teorias da Análise RDS Lisa Johnston
Ao final desta Unidade, você deverá estar apto a: Descrever alguns dos conceitos-chave usados para interpretar a análise RDS Entender porque o RDS, quando adequadamente analisado, pode gerar estimativas que são representativas da população-alvo Reconhecer alguns dos produtos básicos do tratamento de dados pelo software de análise RDS.
A amostra RDS Uma amostra RDS é simplesmente uma amostra de cadeia de referência até que seja analisada levando-se em consideração os vieses inerentes à amostragem por cadeia de referência Uma amostra por cadeia de referência é uma amostra de conveniência e seus resultados não podem ser extrapolados para representar todos os membros da população-alvo Existe um pacote de software disponível no website RDS que aplica os pesos apropriados para ajustar os vieses encontrados na amostra por cadeia de referência RDS Esse software, respondent driven sampling analysis tool (RDSAT), pode ser baixado a partir do website: www.respondentdrivensampling.org
Amostragem probabilística tradicional e o RDS POPULAÇÃO POPULAÇÃO Estimativa Coleta Estimativa Coleta Rede social AMOSTRA AMOSTRA Estimativa Heckathorn & Salganik, 2002
Atribuindo pesos aos dados RDS Gráfico 1. Tamanho da população Gráfico 2. Tamanho da amostra A B A B
Termos importantes Equilíbrio Homofilia Tamanho (ou grau) da rede Padrões de recrutamento
Equilíbrio É o ponto em que as características da amostra passam a modificar-se muito minimamente, não importa quantas pessoas mais sejam recrutadas O alcance do equilíbrio supera os vieses introduzidos pela seleção não-aleatória de sementes Uma vez que o equilíbrio é atingido, o processo de amostragem identifica aleatoriamente os laços na rede da sua população-alvo O RDSAT calcula o equilíbrio para você
Equilíbrio e estimativas para soropositividade em HIV P o r c e n t a g e m d e s o r o p o si ti v o s p a r a H I V Equilíbrio.141 Amostra.143 1 2 3 4 5 6 ONDAS
Seleção das sementes a composição da amostra permite alcançar o equilíbrio independentemente da escolha das sementes Recrutamento de UDI por casta, Katmandu, Nepal A: Composição de amostra por ondas começando apenas com sementes brâmanes Porcentagem da população 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 49.6% 32.6% 0 1 2 3 4 5 6 7 8 9 10 Onda de recrutamento Brâmanes Chhetri Newar Outros B: Composição de amostra por ondas começando apenas com sementes Chhetri Porcentagem da população 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 49.6% 32.6% 0 1 2 3 4 5 6 7 8 9 10 Onda de recrutamento Brâmanes Chhetri Newar Outros
Ondas necessárias para atingir o equilibrio dentro de 2% Nº de ondas necessárias para atingir o equilíbrio por casta e status de HIV: UDI em Katmandu, Nepal 5 4 3 2 1 0 Apenas Brâmanes Apenas Chhetri Apenas Newar Todas as castas Composição das sementes Apenas HIV positivos Apenas HIV HIV Negativos negativos e Positivos
Homofilia É uma medida da preferência por determinadas conexões dentro de um grupo Varia entre -1 (completamente heterófilo) e +1 (completamente homófilo) Na variável de sexo, uma homofilia de.45 para mulheres significa que em 45% das vezes as mulheres recrutaram outras mulheres, e no resto das vezes (55%), as mulheres recrutaram aleatoriamente na população de homens e mulheres
Tamanho da rede Informação fornecida pelo participante Deve ser o mais precisa possível A questão típica sobre o tamanho da rede deve ter os seguintes elementos: Número de pessoas semelhantes a si mesmo que o participante conhece (profissionais do sexo, usuários de drogas injetáveis, homens que fazem sexo com homens, etc.) Use a mesma definição para os membros da população-alvo ao longo de todo o estudo (por ex., restrições de idade, sexo, localidade, número de anos participando do comportamento, etc) Estabeleça um intervalo de tempo durante o qual o participante tenha visto as pessoas da população alvo Quantas pessoas você conhece pessoalmente, que vivem em (inserir a cidade ou área), cujo nome você sabe, que você sabe quem são e eles sabem quem você é, que você viu no último (inserir o período)?
Tamanho da rede Quantos (PS, UDI, HSH) você conhece (sabe o nome, sabe quem são e eles sabem quem você é), vivem em (inserir cidade ou área), e que você viu no último (inserir o período)?
Tamanho da rede Os componentes do tamanho da rede devem incluir aqueles membros da rede social do participante que ele provavelmente incluirá Em outras palavras, modifique a questão sobre a rede para garantir que o participante inclua todas as pessoas que têm a probablidade de serem elegíveis para o estudo Por exemplo, se o seu estudo apenas inclui aqueles HSH que têm mais de 18 anos e vivem em Zagreb, Croácia, então a questão sobre a rede deve incluir esses mesmos parâmetros
Padrões de recrutamento O RDSAT examina como os tipos de pessoas foram recrutados para sua amostra Por exemplo, quantas mulheres e quantos homens foram recrutados por homens, e quantas mulheres e quantos homens foram recrutados por mulheres O RDS usa os padrões de recrutamento para calcular a probabilidade de que uma pessoa de um tipo recrutará outra pessoa do mesmo tipo, ou diferente (probalidade de transição)
Ferramenta de Análise RDS (RDSAT) Utiliza tamanhos de rede e padrões de recrutamento para gerar estimativas de proporção (por ex., participantes soronegativos para o HIV versus participantes soropositivos para o HIV) O banco de dados deve ter links entre recrutadores e recrutados Aplicam-se pesos aos dados de modo que as redes maiores recebam menos peso (e vice-versa) Utiliza bootstrap para gerar estimativas de proporção O RDSAT apenas lê arquivos de texto (com tabulação delimitada)
O RDSAT é fácil de instalar em seu computador O RDSAT é grátis RDSAT (continuação) Baixe a última versão do RDSAT a partir do site: www.respondentdrivensampling.org Os passos para baixar o programa são explicados durante o processo de download. Basta seguir as instruções Ao baixar o programa, surgirá um ícone do RDSAT em sua área de trabalho Terminado o downsload do RDSAT, basta clicar no ícone da área de trabalho para abri-lo
Visão geral do RDSAT No website do RDS, você pode baixar um manual que explica como usar o EDS Os slides seguintes apenas oferecem uma visão geral de alguns dos componentes do RDSAT
Trabalhando com o RDSAT- primeiro passo Alterando opções
Modificando opções Estando seus dados já prontos para análise, a primeira coisa que você deve fazer é alterar suas opções: Aumentar o número de bootstraps para 15000 Alterar o alpha para.025, para obter um intervalo de confiança de 95% Cortar tamanhos de redes extremamente grandes Selecionar tratamento avançado de dados ( Enhanced Data-Smoothing ) como seu tipo de algortimo, para garantir que as estimativas sejam calculadas para células de recrutamento vazias
Produtos RDSAT A análise com o RDSAT resulta na seguinte produção de dados: Matriz de recrutamento Probabilidades de transição Recrutamento demograficamente ajustado
Matriz de recrutamento A matriz de recrutamento descreve o padrão dos recrutamentos dentro da amostra A amostra é dividida em subtipos distintos (ex., mulheres, homens) e o número dos recrutamentos de cada tipo para cada tipo é mensurado Esses dados são inseridos em uma matriz com o tipo do recrutador nas linhas e o tipo do recruta nas colunas
Exemplo de uma matriz de recrutamento no RDSAT Recrutamentos: Recruta 1 Recruta 2 Recrutador 1 10 46 Recrutador 2 44 298
Probabilidades de transição O RDS usa as informações sobre recrutadores e recrutas e os tamanhos de suas redes para determinar a probabilidade de que uma pessoa de determinado tipo (mulher) recrute uma pessoa de outro tipo (homem) A probabilidade é estimada a partir da matriz de recrutamento As linhas da matriz de recrutamento são somadas, fornecendo o número total dos recrutamentos realizados por cada tipo O número dos recrutas em cada célula pode ser dividido pela linha do total para determinar a probabilidade de transição As probabilidades de transição são fundamentais para compreender uma amostra por cadeia de referência, como o processo de Markov em relação aos subtipos
Exemplo de uma tabela de probabilidade de transição no RDSAT Probabilidades de transição: Recruta 1 Recruta 2 Recrutador 1 0.178 0.821 Recrutador 2 0.128 0.871
O recrutamento demograficamente ajustado Para compensar as diferenças no resultado do recrutamento, o RDSAT ajusta a contagem dos recrutamentos, de modo que o número de recrutas de cada grupo (soma das linhas) iguale o número dos recrutamentos por cada grupo (soma das colunas), sem qualquer mudança no padrão de recrutamento ou tamanho da amostra A contagem de recrutamento ajustada é a proporção de seleção multiplicada pelas proporções de equilíbrio de recrutas daquela categoria e o número total de recrutamentos de todas as categorias
Exemplo de uma matriz de recrutamento no RDSAT Matriz de recrutamento demograficamente ajustado: Recruta 1 Recruta 2 Recrutador 1 12.68 43.32 Recrutador 2 57.4 284.6
Recrutamento demograficamente ajustado Por exemplo, analisando a proporção de soronegativos e soropositivos para o HIV entre PS de Ho Chi Minh, os soronegativos recrutaram outros soronegativos em uma proporção de.87. A proporção de soronegativos na amostra é.821 e o total de recrutamentos foi 398. A contagem ajustada de recrutamento para as mulheres é.871 x.821 x 398 = 284.28 Este é o número esperado de recrutas soronegativos para o HIV por outros soronegativos; ambos os grupos de HIV foram recrutados com igual sucesso
Tratamento avançado de dados ( Enhanced Data-Smoothing ) Idealmente, espera-se ver uma amostra em que haja a mesma quantidade de recrutamentos de soropositivos por soronegativos e recrutamentos de soronegativos por soropositivos (ou seja, as conexões existentes entre soronegativos e soropositivos) Porém, isto não costuma ocorrer O tratamento avançado dos dados pode corrigir esta situação
Tratamento avançado de dados ( Enhanced Data-Smoothing ) O RDS requer que nenhuma coluna ou linha da matriz de recrutamento esteja vazia O tratamento avançado de dados reduz essa restrição, preechendo potencialmente as células vazias da matria de recrutamento com a média pela diagonal O tratamento avançado de dados deve ser selecionado antes da análise dos dados quando da escolha das opções (veja slides prévios)
Homofilia A homofilia (ou índice de conglomerado) é uma estatística que descreve os padrões de mistura nas redes O RDS é um dos poucos métodos de amostragem que oferece a mensuração da homofilia Ele descreve a probabilidade de um indivíduo soropositivo conectar-se com outro indivíduo soropositivo, em uma população de indivíduos soropositivos e soronegativos
Homofilia A homofilia pode ser positiva ou negativa, indo de -1 a 1, dependendo da preferência de um indivíduo em associarse a outros de mesmo tipo, ou se tende a evitá-los A homofilia positiva (quando as pessoas mostram tendência a recrutar indivíduos semelhantes a si) é próxima a 1 A homofilia negativa (quando as pessoas mostram tendência a recrutar indivíduos não semelhantes a si) é próxima a -1 Quando a homofilia é zero para todos os grupos, as proporções de equilíbrio e amostra serão idênticas às reais proporções da população no RDS
Estruturas homofílicas A compreensão da homofilia em determinadas populações pode fornecer informações úteis para o desenvolvimento e disseminação de mensagens de prevenção Existem três estruturas de rede básicas que podem ser identificadas examinando-se a homofilia em uma população Essas estruturas são conhecidas como: centro-periferia coorte bipartite
Redes de estrutura centroperiferia Essas redes apresentam tipicamente alguns poucos indivíduos muito populares, em torno dos quais vários outros indivíduos menos populares se reúnem Um exemplo: O profissional do sexo é o astro ou centro, e seus clientes, a periferia da rede Do mesmo modo, um agente (cafetão, dona de prostíbulo) pode ser o centro da rede de profissionais do sexo, e estes profissionais, a periferia Esta rede é assim classificada quando a homofilia é positiva para grupos de alto status e negativa para grupos de baixo status
Redes de estrutura centroperiferia
Redes estruturadas em coortes Uma rede estruturada em coortes pressupõe que seus membros tendem a associar-se inicialmente a indivíduos semelhantes a si Os membros podem assemelhar-se por idade, sexo, grau de escolaridade Por exemplo, jovens HSH podem preferir associar-se com outros jovens HSH O índicador que permite reconhecer uma estrutura em coortes é a homofilia positiva para cada subgrupo de interesse
Redes estruturadas em coortes
Redes de estrutura bipartite Estruturas bipartites existem quando os indivíduos formam laços com outros diferentes de si; por ex., os parceiros sexuais de indivíduos heterossexuais Em estruturas bipartites, a homofilia será negativa para cada grupo.
Variância das estimativas A variância das estimativas é essencial para estabelecer a confiabilidade de uma estimativa Em uma simulação com mil repetições de uma coleta de RSD, uma única estimativa de cada uma dessas amostras é computada Uma distribuição dessas estimativas pode então ser computada
Variância das estimativas Simulações em estatística geral demonstram que, independentemente do tamanho da população ou do tamanho da amostra aleatória, quando se tomam repetidamente amostras aleatórias de mesmo tamanho na mesma população, e se calcula a variância das estimativas de cada amostra, esses valores se agruparão ao redor do valor exato da variância da população (Rosner, 2000). O RDS usa o bootstrap para gerar a estimativa de variância (Efron & Tibshirani, 1993)
Pesos da população Grupo 1 Grupo 2 Proporções estimadas da população 0.121 0.878 Proporções de amostra da população 0.142 0.857 Proporções de recrutamento 0.136 0.863 Distribuição da amostra de equilíbrio 0.136 0.863 Pesos da população 0.853 1.024 Peso < 1 é dado ao Grupo 1 e peso >1 é dado ao Grupo 2 para compensar possíveis vieses.
Estimativas RDS para proporções de população Grupo 1 Grupo 2 Proporções estimadas da população 0.121 0.878 Proporções de amostra da população 0.142 0.857 Proporções de recrutamento 0.136 0.863 Distribuição da amostra de equilíbrio 0.136 0.863 Pesos da população 0.853 1.024 Intervalo de confiança do Bootstrap (alfa=0.05) Proporções estimadas da população Limite mínimo Limite máximo Grupo 1 0.121 0.087 0.161 Grupo 2 0.878 0.838 0.912
Técnica de Bootstrapping Recrutadores Recrutas Grupo 1 Grupo 2 Total Grupo 1 10 41 51 Grupo 2 44 301 345 Total 54 342 396
Estimativas de Bootstrap para reamostras variantes Reamostras Grupo 1 (0.121) Grupo 2 (0.878) 10 0.096 0.180 0.819 0.903 50 0.087 0.152 0.847 0.912 100 0.081 0.151 0.849 0.918 500 0.089 0.161 0.839 0.910 1000 0.088 0.159 0.841 0.911 2500 0.088 0.162 0.837 0.911 5000 0.087 0.159 0.840 0.912 10000 0.086 0.160 0.839 0.913 15000 0.086 0.159 0.840 0.913
Estimativas de proporção de amostra (EPA) São calculadas mediante a divisão do número de entrevistados com a variável de interesse pelo tamanho total da amostra Por exemplo, a proporção de mulheres na amostra é o número de mulheres da amostra dividido pelo tamanho total da amostra As EPA não são representativas da população porque são calculadas sem levar em conta os tamanhos médios das redes Todavia, elas ainda representam uma estimativa que pode ser encontrada em uma amostra por cadeia de referência normal
Estimativas de proporção da população (EPP) São estimativas de proporção obtidas mediante o uso da teoria do RDS descrita acima Se todos os pressupostos e exigências do RDS forem satisfeitos, as EPP serão representativas das características encontradas na populaçãoalvo
Estimativas de proporção de equilíbrio (EPE) São estimativas da proporção da amostra de dois (ou mais) grupos distintos no momento de convergência Por exemplo, se a convergência é atingida na onda 3 do recrutamento (a composição da amostra deixa de apresentar variação), então as EPE são a proporção de tipos (por ex., mulheres e homens) naquele ponto de convergência Geram proporções sem levar em conta as diferenças no tamanho das redes Demonstram que a amostra atingiu convergência uma importante indicação de que não sofreu viés devido à seleção não-aleatória das sementes
P e r c e n t Diferenças entre as estimativas de proporção de população e as estimativas de proporção de amostra 100 90 80 70 60 50 40 30 20 10 0 13,6 12,3 Status de HIV (sim) 43,7 38,8 Uso de preservativo no mês anterior (não) 12,8 12,2 Alguma vez foi IDU (sim) Fatores de risco e status de HIV EPA EPP
Avaliando vieses na amostra Tamanhos das redes Homofilia (índice de conglomerado) Recrutamento Diferencial
Vieses em estimativas de amostra Status atual de HIV Positivo Negativo Tamanho estimado da rede 6.149 5.490 Homofilia.064-0.0070 Uso de preservativo no mês anterior Yes No Tamanho estimado da rede 6.346 5.102 Homofilia.252.069 Alguma vez foi UDI Yes No Tamanho estimado da rede 5.83 5.53 Homofilia.151.106
Obrigado