26/4/2012. Record Linkage - Medline Curso on line reclink:

Documentos relacionados
A Mortalidade Neonatal no Estado de São Paulo: Níveis e Tendências Segundo a Duração da Gestação

O uso da técnica de Linkage de sistemas de informação em estudos de coorte sobre mortalidade neonatal*

Deterministic record linkage in Aids mortality databases

Concurso Público 2016

Perfil dos nascidos vivos de mães residentes na área programática 2.2 no Município do Rio de Janeiro

USO DO GEOPROCESSAMENTO PARA

1.1 Analise e interprete o efeito da cobertura da ESF na razão de taxa de mortalidade infantil bruta e ajustada.

(043A) F383s '

Mortalidade Infantil em uma amostra de Recém-nascidos no Município do Rio de Janeiro,

Unidade: Medidas de Frequência de Doenças e Indicadores de Saúde em Epidemiologia. Unidade I:

Indicadores de saúde Morbidade e mortalidade

DESIGUALDADES RACIAIS NA NATALIDADE DE RESIDENTES NO RECIFE,

EPIDEMIOLOGIA. Profª Ms. Karla Prado de Souza Cruvinel

ENFERMAGEM EPIDEMIOLOGIA E VIGILÂNCIA EPIDEMIOLÓGICA. Aula 7. Profª. Tatianeda Silva Campos

MORTALIDADE E NASCIDOS VIVOS

ANEXO 1 ALGUNS INDICADORES MAIS UTILIZADOS EM SAÚDE PÚBLICA

= u~~-l'!~f~~ªx~~: ~ r-- :Sem : n = n = n = n = ~-i~~r!~~~y-~9_:_~_1 : N = N. Sinan SIM.

Coordenação de Epidemiologia e Informação

Pirâmide Etária Brasil

PALAVRAS-CHAVE Morte Fetal. Indicadores de Saúde. Assistência Perinatal. Epidemiologia.

MINISTÉRIO DA SAÚDE/SPS/CONSULTORIA PROGRAMA DE REDUÇÃO DA MORTALIDADE INFANTIL E MATERNA NO NORDESTE BRASILEIRO

16/4/2010 SISTEMAS DE INFORMAÇÃO EM SAÚDE

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

UNIVERSIDADE DE SÃO PAULO

TIPOS DE ESTUDOS EPIDEMIOLÓGICOS. CLÁUDIA PINHO HARTLEBEN MÉDICA VETERINÁRIA

INDICADORES DE SAÚDE I

MEDIDAS DE FREQUÊNCIA DE EVENTOS Aula 6

A Atenção Básica na Vigilância dos Óbitos Materno, Infantil e Fetal

PRÁ-SABER: Informações de Interesse à Saúde SINASC Porto Alegre Equipe de Vigilância de Eventos Vitais, Doenças e Agravos não Transmissíveis

SEMINÁRIO INTEGRADO DO PARANÁ 20 ANOS DO COMITÊ DE PREVENÇÃO DE MORTALIDADE MATERNA 10 ANOS DE MORTALIDADE INFANTIL. 24, 25 e 26 de novembro de 2.

Alta Mortalidade Perinatal

Seqüência comum dos estudos

Características dos dados em epidemiologia

Vigilância = vigiar= olhar= observar= conhecer.

UERGS Administração de Sistemas e Serviços de Saúde Introdução ao Método Epidemiológico. 1. Indicadores epidemiológicos, mortalidade e morbidade.

INDICADORES DE SAÚDE

A taxa ou coeficiente de mortalidade representa a intensidade com que os óbitos por uma determinada doença ocorrem em dada população.

Ano 8, nº 05, 03 de Abril/2013. Indicadores para Diagnóstico Sintético da Saúde

Selo SINASC Manual do. Sistema de Informação sobre Nascidos Vivos

Tipos de Estudos Epidemiológicos

Conceitos Básicos e Medidas em Demografia Mortalidade e Esperança de Vida

PROVA DE CONHECIMENTOS ESPECÍFICOS Cód. 35. Entende-se por comportamento endêmico de uma doença quando:

Características dos dados em epidemiologia

Coordenação de Epidemiologia e Informação

INDICADOR DE MORTALIDADE ESTATISTICAS VITAIS SISTEMA DE INFORMAÇÃO PRINCIPAIS INDICADORES

QUANTOS ADOECEM E MORREM?

TRINTA ANOS DO SISTEMA DE INFORMAÇÕES SOBRE MORTALIDADE NO BRASIL: AVALIAÇÃO. M. Helena P. de Mello Jorge (FSP/USP) EPI 2008 Porto Alegre

INDICADORES DE SAÚDE I

REGISTO NACIONAL DE AN MALIAS CONGÉNITAS O RENAC Resumo

MEDIDAS DE MORTALIDADE

UERGS Administração de Sistemas e Serviços de Saúde Introdução ao Método Epidemiológico. 1. Indicadores epidemiológicos, mortalidade e morbidade.

INDICADORES DE MORTALIDADE

Mortalidade Infantil: Afecções do Período Perinatal

Belo Horizonte, 23/09/2008. Autores:

Bioestatística F Desenho de Estudos na Área da Saúde

DESIGUALDADES SOCIAIS E MORTALIDADE INFANTIL NA POPULAÇÃO INDÍGENA, MATO GROSSO DO SUL. Renata PalópoliPícoli

QUANTOS ADOECEM E MORREM?

Prestação de Contas 1º trimestre Indicadores de Saúde

RPP Estudos observacionais. Seqüência comum dos estudos ESTUDOS DE CASO-CONTROLE

DISSERTAÇÃO Mestrado

INDICADORES SOCIAIS (AULA 3)

Indicadores para Diagnóstico de Saúde da Cidade de São Paulo

MORTALIDADE POR ACIDENTE DE TRÂNSITO ENTRE JOVENS EM MARINGÁ-PR NOS ÚLTIMOS 10 ANOS

Introdução. Abstract ARTIGO ARTICLE. Carlos Antônio Maciel de Morais 1 Olga Akiko Takano 1 Jonathan dos Santos Feroldi e Souza 1

Situação de saúde Indicadores de mortalidade por causas Ind Razão de mortalidade materna, por ano, segundo região e escolaridade Indicador

Data de elaboração 30/04/2013 CEPI-DSS/ ENSP/FIOCRUZ

Uso do linkage para a melhoria da completude do SIM e do Sinasc nas capitais brasileiras

PERFIL EPIDEMIOLÓGICO DE ANOMALIAS CONGÊNITAS: UM ESTUDO DA MACRORREGIÃO SUL DO ESTADO DE SANTA CATARINA

SECRETARIA DE SAÚDE DE VIDEIRA PACTUAÇÃO DE INDICADORES

TÍTULO: LINKAGE DAS BASES DE DADOS DE NASCIDOS VIVOS E ÓBITOS INFANTIS PARA ESTUDO DAS MALFORMAÇÕES CONGÊNITAS NA CIDADE DO RECIFE(PE)

Desenho de Estudos. Enrico A. Colosimo/UFMG enricoc. Depto. Estatística - ICEx - UFMG 1/28

Sistemas de Informação em Saúde

COORDENADORIA REGIONAL DE SÁUDE S OESTE

Taxa de mortalidade infantil Descrição

PLANO DE ENSINO. TOTAL: 80 horas (60 horas teóricas; 20 horas práticas)

Dados, Indicadores e Sistemas de Informações. Graduação em Saúde Pública HEP0173

ANEXO I FICHA DE INVESTIGAÇÃO DO ÓBITO INFANTIL E FETAL - SÍNTESE, CONCLUSÕES E RECOMENDAÇÕES

ANÁLISE DOS DADOS DE MORTALIDADE DE 2001

Medidas de Associação-Efeito. Teste de significância

REDE BRASILEIRA DE PESQUISAS NEONATAIS

ENFERMAGEM NA ATENÇÃO BÁSICA

Mulheres Negras e a Mortalidade Materna no Brasil

ESTUDO COMPAROU DADOS DE MAIS DE 1.2 MILHÃO DE CRIANÇAS

4. NATALIDADE E MORTALIDADE INFANTIL

Melhora na qualidade e completitude da base de dados do Registro de Câncer de Base Populacional do município de São Paulo: uso das técnicas de linkage

Medidas de Epidemiologia Geral Parte I

ISSN ÁREA TEMÁTICA: (marque uma das opções)

Que informações epidemiológicas sobre Oncologia Pediátrica têm sido produzidas?

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

REDE BRASILEIRA DE PESQUISAS NEONATAIS

Informe Epidemiológico Síndrome Congênita associada à Infecção pelo Vírus Zika (SCZ)

Documento de Apoio ao Utilizador

CIR LITORAL NORTE. Possui 4 municípios: Caraguatatuba, Ilhabela, São Sebastião e Ubatuba

REVISÃO. Conceitos, fórmulas, passo a passo e dicas!

Ind Proporção (%) de nascidos vivos com 7 ou mais consultas de pré-natal, por ano, segundo região e escolaridade da mãe

Semana Epidemiológica (SE) 02/2017 (08/01 a 14/01) Informe Epidemiológico Síndrome Congênita associada à Infecção pelo Vírus Zika (SCZ)

COMITÊ MUNICIPAL DE ESTUDOS E PREVENÇÃO DAS MORTES MATERNAS DE PORTO ALEGRE (CMEPMM) Relatório da Mortalidade Materna de Porto Alegre 2007

A importância do quesito cor na qualificação dos dados epidemiológicos e como instrumento de tomada de decisão em Políticas Públicas de Saúde

Gabarito: Letra B. I é falso porque fumo é uma causa contributiva (componente) e III é falso porque o RR seria igual a 1.

METODOLOGIA DE CÁLCULO DA TAXA DE MORTALIDADE INFANTIL

Transcrição:

LINKAGE VINCULAÇÃO DE BANCO DE DADOS A linkage ou vinculação de bancos de dados baseia-se na identificação de um mesmo indivíduo em dois ou mais bancos de dados, permitindo dessa forma o compartilhamento das informações registradas nesses bancos de dados, possibilitando recuperar e complementar informações, ampliando sua utilização a baixo custo operacional. Curso on line reclink: http://www.iesc.ufrj.br/reclink/eclink_arquivos/linkage_ims.doc CAMAGO J., Kenneth. de e COELI, Cláudia M.. eclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage. Cad. Saúde Pública [online]. 2000, vol.16, n.2, pp. 439-447. ISSN 0102-311X. ALMEIDA, M. F. ; MELLO JOGE, M. H. P.. O uso da técnica de linkage de sistemas de informação em estudos de coorte sobre a mortalidade neonatal. evista de Saúde Pública v. 30, n. 2, p. 141-147, 1996. EXEMPLOS DAS POSSIBILIDADES DE USOS DA LINKAGE: EXEMPLOS DAS POSSIBILIDADES DE USOS DA LINKAGE: Vigilância saúde materno infantil Vinculação de bancos SINASC/SIM/AIH/ CNES/prontuários médicos Mortalidade infantil/neonatal/perinatal Mortalidade materna Vigilância epidemiológica Doenças de Notificação Compulsória SINAN/SIM/AIH Doenças Crônico degenerativas Câncer egistro de câncer/sim/aih/apac Acidentes de Trabalho - CAT/SIM Avaliação da qualidade da informação Identificação de duplicação de registro do mesmo individuo nos bancos de dados. Comparação de registros de variáveis comuns a 2 ou mais bancos de dados - estabelecimento de padrão ouro de registro e calculo de sensibilidade e especificidade Outros usos Dados censitários/mortalidade INSS/Mortalidade INCOPOAÇÃO DA INFOMÁTICA- produção de grandes bancos de dados permitiu o crescimento da utilização da técnica ecord Linkage - Medline 1960-2007 1995 Statistics in Medicine praticamente metade do volume 14 é destinado a artigos sobre linkage. 1996 WHO/NCHS Seminário Internacional sobre o uso de linkage para vigilância materno-infantil suplemento especial Paediatric and Perinatal Epidemiology, 1997. 1997 US Census-Bureau/Office Statistics Seminário sobre usos de linkage de bancos de dados Número de Artigos 2000 1800 1600 1400 1200 1000 800 600 400 200 0 1803 1219 403 132 24 Até 1969 1970-1979 1980-1989 1990-1999 2000-2007* Período 1

AS TÉCNICAS UTILIZADAS PAA A VINCULAÇÃO DOS BANCOS DE DADOS SÃO: AS TÉCNICAS UTILIZADAS PAA A VINCULAÇÃO DOS BANCOS DE DADOS SÃO: Determinística utiliza variáveis de identificação individual (nome; data de nascimento, sexo, endereço) para identificar o mesmo individuo em 2 ou mais bancos de dados Probabilística calcula a probabilidade de um conjunto de variáveis ou de identificadores comuns a 2 bancos de dados formar pares. A probabilidade é empregada para determinar se o par de se refere ao mesmo individuo Há softwares para o emprego desta técnica- reclink, linkplus Determinística quando há várias informações de identificadores individuais esta técnica tende a aumentar a taxa de vinculação ou de linkage Probabilística na presença de poucas variáveis de identificação esta a única técnica possível de ser empregada, por exemplo um dos bancos de dados não contem identificação nominal há apenas informação fornecida por números de identificação individual AS TÉCNICAS UTILIZADAS PAA A VINCULAÇÃO DOS BANCOS DE DADOS SÃO: O emprego destas técnicas pressupõem: Bancos de dados com boa cobertura de eventos Bancos de dados com boa qualidade da informação registrada, isto é, ausência ou pequena proporção de informações em branco de modo a facilitar a identificação dos indivíduos nos dois bancos ou de aumentar a probabilidade de formação de pares. Bancos de dados sem boa cobertura e qualidade de registro de dados irá comprometer a taxa de vinculação Etapas: Linkage Determinística 1- Seleção de indivíduos que apresentem valores de variáveis comuns em 2 ou mais bancos de dados variáveis primárias de linkage 2- Emprego de variáveis que confirmem a seleção dos indivíduos que apresentem valores semelhantes formação de pares de eventos variáveis de confirmação de pares. 3- Emprego de variáveis de identificação individual, como nome ou endereço para confirmação que é o mesmo individuo em 2 ou mais bancos de dados. Tecnica de linkage determinística DO Data de nascimento Sexo Variáveis primárias de linkage Padronização dos bancos de dados: - Identificação de variáveis comuns a 2 ou mais de dados - Seleção das variáveis de identificação Seleção do conjunto de DNs que apresentaram mesma data de nascimento e sexo Nome da mãe Endereço de residência mãe (rua, bairro) Tipo de gravidez Variáveis de confirmação do pareamento DO/DN DO/DN pareadas Mesmo indivíduo nos dois bancos de dados DN não pareadas Indivíduos distintos 2

AS TÉCNICAS UTILIZADAS PAA A VINCULAÇÃO DOS BANCOS DE DADOS SÃO: A rotina de trabalho informatizada Definição das variáveis que serão utilizadas na comparação dos indivíduos que estão presentes nas duas bases de dados consideradas, como por exemplo: nome da criança, iniciais do nome da criança, nome da mãe, iniciais do nome da mãe, data de nascimento da criança número da declaração de nascido vivo Combinações entre as variáveis escolhidas quando necessário confirmação com variáveis adicionais Linkage Determinística Em grandes bancos de dados há dificuldades no emprego da variável nome: um mesmo nome pode ser escrito de diferentes formas, pode estar abreviado Codificação por meio de Soundex: algoritmo que transforma as consoantes em números produzindo um código após a letra inicial do nome e retira as vogais. Taxa de vinculação: A partir de um banco de dados por exemplo de óbitos neonatais para vincular com a base dados de nascidos vivos irá representar a proporção de pares formados entre os óbitos neonatais e o respectivo registro de nascido vivo. Estudos com boa taxa de linkage ou vinculação estes valores ficam acima de 90% O objetivo de empregar técnicas que permitem obter elevada proporção de vinculação: reduzir a presença de vieses na base de dados vinculada proporções reduzidas de vinculação irão se traduzir em subestimação a presença do desfecho distorção do efeito dos possíveis fatores de risco envolvidos na rede causal do evento estudado. LINKAGE SIM e SINASC Obtém-se uma coorte de nascidos vivo a partir das Declarações de Nascido Vivo (DN) de determinado local, definindo-se um período de tempo de observação (364 dias para estudos de mortalidade infantil e 27 dias para estudos de mortalidade neonatal). Paralelamente, obtém-se as Declarações de Óbito (DO) relativas aos óbitos que, teoricamente tenham sido provenientes deste conjunto de nascimentos. Com base nestes 2 grupos de documentos pareia-se cada DO com sua respectiva DN, o conjunto de DN/DO pareadas será considerado como desfecho e o conjunto de DN não pareadas passam a ser consideradas como sobreviventes da coorte. Considerou-se como exposição as variáveis registradas nas declarações de nascido vivo. As DOs foram utilizadas apenas para identificar os óbitos, a idade ao morrer e causa de morte Portanto, obtém-se uma corte retrospectiva e estática de nascidos vivos onde se verifica a ocorrência de óbitos de menores de 1 ao ou neonatais. 3

GAFICO 1 NASCIDOS VIVOS SEGUNDO FONTE DE OBTENÇÃO E VEIFICAÇÃO DA INFOMAÇÃO GAFICO 2 ÓBITOS NEONATAIS SEGUNDO FONTE DE OBTENÇÃO E VEIFICAÇÃO DA INFOMAÇÃO Fonte: Hospital 3408 N Óbito fetal 6563 DN 59 DN 42 DN esidência 3 3155 Prontuário 3152 Fonte: Cartório 4 N Dupl. DN Hosp. esidência 5 55 Duplicação 50 3225 N. Vivos resid./ocorrido MSA. Fonte: Pesquisa 16 N Dupl. Cart. esidência 3 26 Duplicação 23 Verif. Evento Um. Nasc.(pront.méd.) Fonte Cartório Óbitos Neonatais 2 2 1 Nasc. Outro Mun. 7 Óbito fetal 55 DO Neonatal Mun. Desc. 2 Nasc. MSA 48 Nasc. MSA 51 Nasc. MSA 53 Fonte Cartório Óbitos Fetais 51 DO Fetal Verif. Evento Um. Nasc.(pront.méd.) 2 Ob. neonatal Verif. Evento Pront. 49 Óbito fetal 2 Nasc. MSA Fonte SEADE Óbitos neonatais, resid. MSA, ocorridos outros Mun. 42 DO Outro Mun. 13 11 Mun. Nasc. Desc. Ob. MAS e Mun.Desc. Verif. Mun. nasc. 27 Nasc. Outro município Ob. Ocorridos MSA GAFICO 3 VINCULAÇÃO DO/DN DO não pareada (nasc. Outro município) 53 DO 13 DO 3.525 DN Óbitos ocorridos SA Nascidos em SA e município desconhecido pareamento Nascidos e residentes em Santo André Óbitos ocorridos Outros municípios e município desconhecido 1 10 52 3 DO/DN pareadas óbitos e nascimentos em SA pareamento DO/DN pareadas nasc. em SA óbito outro município DO não pareada (nasc. Outro município) Foram vinculados ou linkados 96,5% dos óbitos neonatais com as respectivas DNs neste processo. Elevada proporção de eventos linkados ou vinculados ou formação de pares verdadeiros é indispensável par seu uso em epidemiologia, caso contrario serão introduzidos vieses 3.170 55 Sobreviventes (DN não pareada) Óbitos neonatais DO/DN pareadas Viés de seleção dos indivíduos da cobertura da DN; dos possíveis erros de classificação do evento; do local da residência. Viés da medida de efeito da cobertura da DN; dos possíveis erros de classificação de eventos. NÚMEO DE NASCIDOS VIVOS, ÓBITOS NEONATAIS E SOBEVIVENTES SEGUNDO FONTE DE OBTENÇÃO DAS DN. Fonte Óbitos neonatais Sobreviventes Total Nº % Nº % Nº % DN-HOSP. 50 90,9 3102 97,8 3152 97,7 DN-CAT. - - 50 1,6 50 1,6 DN-PESQ. 5 9,1 18 0,6 23 0,7 Total 55 100,0 3170 100,0 3225 100,0 4

A linkage dos bancos de dados SIM/SINASC utilizou dados individualizados e portanto permitiu que construção de uma coorte de nascidos vivos onde ocorreram óbitos neonatais e desse modo viabilizou a identificação de fatores de risco para óbitos neonatais. Este procedimento permitiu a realização de análises de dados individualizadas e não somente a realização de estudos ecológicos onde são utilizados apenas dados agregados. 1. COOTE NASCIDOS VIVOS Nº Nascidos Vivos > > > x x > > x > 0 7 14 21 28 > x Tempo/dias 2. COOTE DE NASCIDOS VIVOS Nº de Nascidos Vivos x Permaneceram vivo Óbitos ocorridos x x 0 7 14 21 28 dias número de indivíduos 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 COOTE DE NASCIMENTOS 0 7 14 21 28 dias Estudos de Coorte MEDIDAS OBTIDAS azão de iscos ou isco elativo () Probabilidade de morte dos expostos = Probabilidade de morte dos não expostos = a a + b c c + d Variáveis não associadas ao risco de morte neonatal Variáveis q* IC95% X 2 p Sexo Masculino 19,3 1,3 0,8 2,2 1,0 > 0,05 Feminino 14,7 1,0 - - - Local de nascimento Outro local 14,9 0,9 0,1 6,2 0,0 > 0,05 Hospital 17,1 1,0 - - - Tipo de Gestação Múltipla 19,2 1,1 0,2 7,8 0,01 > 0,05 Única 17,1 1,0 - - - Idade mãe (anos) Menos de 15 39,2 2,5 0,6 10,1 1,7 > 0,05 15 19 16,2 1,0 0,4 2,3 0,0 > 0,05 20 34 15,7 1,0 - - - 35 e mais 23,2 1,5 0,6 3,4 0,7 > 0,05 * 1000 NV 5

Variáveis não associadas ao risco de morte neonatal Variáveis q* IC95% X 2 p Paridade 0 20,3 1,5 0,8 2,6 1,6 > 0,05 1 a 3 12,6 1,0 - - - 4 e + 18,5 1,8 0,7 4,7 1,5 > 0,05 Grau de instrução Nenhuma 20,2 1,1 0,3 4,6 0,0 > 0,05 1 grau incompleto 17,4 0,9 0,5 1,8 0,1 > 0,05 1 grau completo 19,7 1,0 - - - 2 grau 10,9 0,6 0,2 1,5 1,1 > 0,05 Superior 7,0 0,4 0,1 2,8 0,2 > 0,05 * 1000 NV Variáveis associadas ao risco de morte neonatal Variáveis q* IC95% X 2 p Peso ao nascer (g) < 1500 702,7 121,7 725 204,3 1248,0 < 0,01 1500 2499 67,1 11,5 5,5 24,2 64,0 < 0,01 2500 e + 5,8 1,0 - - - Duração gestação 22 27 812,5 188,3 104,2 340,0 1221,4 < 0,01 28 36 180,6 41,8 22,1 79,2 358,7 < 0,01 36 41 4,3 1 - - - 42 e + 62,5 14,5 2,0 104,2 11,7 < 0,01 * 1000 NV Variáveis de confusão do risco de morte neonatal Variáveis q* IC95% X 2 p Tipo de parto cesárea 11,2 0,5 0,3 0,8 7,7 < 0,01 normal 24,1 1,0 - - - Tipo hospital de nascimento SUS 22,5 2,3 1,2 4,2 7,1 < 0,01 Não SUS 10,1 1,0 - - - SUS Público 70,7 1,1 0,2 7,8 35,3 < 0,01 Privado 13,9 1,0 - - - Anotação nome pai ausente 26,4 1,8 1,0 3,2 4,2 <0,05 presente 14,7 1,0 * 1000 NV Interação de efeito das variáveis associadas ao risco de morte neonatal Variáveis q* IC95% X 2 p Baixo peso/sexo Masculino 239,6 2,0 1,1 3,7 5,7 < 0,01 Feminino 120,0 1,0 - - - Duração gestação/peso ao nascer Pré termo < 2500 336,4 82,0 43,7 151,7 731,0 < 0,01 2500 65,6 15,9 5,3 47,8 42,0 < 0,01 Termo < 2500 9,3 2,2 0,3 17,4 0,6 > 0,05 2500 5,2 1,0 - - - Pós termo < 2500 62,5 15,1 2,1 109,5 12,2 < 0,01 * 1000 NV Linkage probabilistico: Aplicativo ECLINK- Coeli e Camargo,2000 In http://www.iesc.ufrj.br/reclink/ Linkage probabilístico Este método se baseia em três processos: padronização de registros blocagem de registros (blocking) pareamento de registros 6

Processo de padronização é o primeiro processo a ser realizado e envolve a preparação dos campos de dados, buscando-se minimizar a ocorrência de erros durante o processo de pareamento de registros. Este processo é fundamental para os campos não estruturados como, por exemplo, nome. Exemplos de rotinas que podem ser desenvolvidas nesta etapa: transformação de todos os caracteres alfabéticos da forma minúscula para a maiúscula a eliminação de caracteres de pontuação e de espaços em branco no início do campo Processo de blocagem: O objetivo desta etapa é permitir que o processo de pareamento se faça de forma mais otimizada. Por meio deste processo, as bases de dados são logicamente divididas em blocos mutuamente exclusivos, limitando-se as comparações aos registros pertencentes ao mesmo bloco. Os blocos são constituídos de forma a aumentar a probabilidade de que os registros neles contidos representem pares verdadeiros. O processo consiste na indexação das bases de dados a serem relacionados segundo uma chave formada por um campo ou pela combinação de mais de um campo. Os registros de determinado bloco mostram valor idêntico para a chave escolhida Processo de blocagem: A escolha do campo chave deve ser feita de modo criterioso: a chave escolhida deve permitir a divisão da base de dados no maior número de blocos possíveis e ao mesmo tempo, ser sujeita à baixa probabilidade de ocorrência de erros de registro. Exemplos: Blocagem a partir do campo sexo dividiria a base em apenas dois blocos, trazendo pouco ganho em termos de otimização do processo de comparação. Blocagem a partir do último nome permitiria a divisão em diversos blocos, mas, como este campo é sujeito a vários erros de registro, essa estratégia de blocagem aumentaria muito a chance de que os registros relativos a mesmo indivíduo fossem classificados em blocos diferentes, impossibilitando sua comparação. Processo de blocagem: O processo de blocagem não é imune ao problema da classificação de registros do mesmo indivíduo em blocos diferentes. Estratégia de múltiplos passos: emprega-se determinada chave para blocagem e procede-se à comparação dos registros. Os registros não pareados na primeira etapa são então novamente blocados, empregando-se nova chave. Pareamento de registros: Identificação do mesmo individuo em duas bases de dados distintas formação de pares Baseia-se na construção de escores para os diferentes pares possíveis de serem obtidos a partir do emprego de determinada estratégia de blocagem. Este processo pode ser repetido, dependendo da disponibilidade de campos-chaves adequados. 7

Pareamento de registros: O escore final de cada par é construído a partir da soma dos escores ponderados de cada campo empregado no processo de pareamento Exemplo: nome, último nome, sexo e e data de nascimento Este processo permite que cada campo contribua de modo diferenciado para o escore total do par. A contribuição diferenciada é recomendável, pois os campos apresentam diferente poder discriminatório e, ao mesmo tempo, exibem maior ou menor probabilidade de terem seus conteúdos registrados de forma incorreta. Ex. O campo sexo mostra baixo poder discriminatório, mas o seu registro é, em geral, feito de forma correta. Já o campo último nome, apesar de apresentar bom poder discriminatório, é mais sujeito a erros de registro. Pareamento de registros: Definição dos escores Para cada campo i define-se a probabilidade mi do campo concordar entre os dois registros, dado que se trata de par verdadeiro, e a probabilidade ui do campo concordar por tratar-se de par falso. mi representa a probabilidade do campo identificar um par como verdadeiro quando ele realmente é verdadeiro (sensibilidade) ui a probabilidade do campo identificar um par como verdadeiro, quando na realidade ele é falso (1 especificidade). 1 mi como a probabilidade de o campo discordar entre dois registros, uma vez que se trata de par verdadeiro (1 sensibilidade) 1 ui representaria a probabilidade de o campo discordar, já que se trata de par falso (especificidade). Com base nestas probabilidades são construídos dois fatores de ponderação: um para a situação de concordância um para a situação de discordância. Compara-se o campo registrado em uma base de dados com o da segunda base de dados Se os campos concordarem, aplica-se o fator de ponderação de concordância e, em caso contrário, o de discordância. Se os campos concordarem, aplica-se o fator de ponderação de concordância e, em caso contrário, o de discordância. O fator de ponderação de concordância é calculado como o logaritmo de base 2 da razão de verossimilhança entre as probabilidades mi e ui wci = log2[ mi/ui] O fator de ponderação de discordância como o logaritmo de base 2 da razão de verossimilhança entre as probabilidades 1 mi e 1 ui wdi = log2[ (1 mi) / (1 ui)] O escore total de determinado par é obtido a partir da soma dos fatores de ponderação atribuídos após a comparação de cada campo avaliado. Como mi é geralmente maior que ui, o fator de concordância contribui positivamente para o escore final, enquanto o fator de discordância contribui negativamente Pareamento de registros: Definição de limiares para classificação dos pares em verdadeiros falsos e duvidosos evisão manual dos pares duvidosos para classificação em falsos ou verdadeiros 8

Tese de doutorado Uso da técnica de linkage nos sistemas de informação em saúde: aplicação na base de dados do egistro de Câncer de base populacional do município de São Paulo Peres, SV 2011 Linkage das bases de dados: egistro de Câncer de base populacional do município de São Paulo SIM- POAIM/SMS-SP SIM- SEADE APAC Tese de doutorado Uso da técnica de linkage nos sistemas de informação em saúde: aplicação na base de dados do egistro de Cancer de base populacional do município de São Paulo Peres, SV A estratégia de blocagem é a união de mais de um bloco, onde cada bloco é representado por uma variável. Estas estratégias são empíricas e da escolha do pesquisador. Tenta-se unir as variáveis com menor percentual de erro, como sexo, nome e ano de nascimento e esta recomendação consta no tutorial do programa eclink III (Camargo Jr. e Coeli, 2007). Neste trabalho foram testadas dez estratégias de blocagem descritas no Quadro 2. Por exemplo, para Maria do osário Dias de Oliveira Latorre, nascida em 31 de outubro de 1955, a estratégia um (1) seria: Blocagem de variáveis 10 estratégias Quadro 2 - Estratégias de Blocagem. Variáveis de Blocagem 1. PBLOCO UBLOCO SEXO M001 L2043 2 10. FPIMEIONOME FULTIMONOME SEXO ANONASCIMENTO MAIA LATOE 2 1955 1. 2. 3. 4. 5. 6. 7. 8. 9. PBLOCO + UBLOCO + SEXO PBLOCO + SEXO UBLOCO + SEXO PBLOCO + UBLOCO + SEXO +ANO DE NASCIMENTO PBLOCO + SEXO +ANO DE NASCIMENTO UBLOCO + SEXO +ANO DE NASCIMENTO FPIMEIO NOME + FULTIMO NOME + SEXO FPIMEIO NOME + SEXO + ANO DE NASCIMENTO FULTIMO NOME + SEXO + ANO DE NASCIMENTO 10. FPIMEIO NOME + FULTIMO NOME + SEXO + ANO DE NASCIMENTO Pareamento Parâmetros para a construção dos escores de pareamento. Fatores de ponderação de concordância e discordância. Base de dados Variáveis Pesos da concordância Pesos da discordância CBP x PO-AIM Nome 16,8947-4,70399 Bases de dados Variáveis Algoritmo Sensibilidade (m i ) 1-especificidade (u i ) Proporção mínima de concordância Data de Nascimento 6,3953-3,7279 Nome Aproximado 92% 1% 85% Valores sementes (Tutorial eclink) CBP x PO-AIM Data de Nascimento Caractere 90% 5% 65% Ano de Nascimento Diferença 92% 4% ± 2 Nome Aproximado 96,2% 0,001% 85% Data de Nascimento Caractere 92,5% 1,1% 65% Ano de Nascimento 3,88547-4,24028 CBP x Apac-SIA/SUS Nome 16,6247-2,96648 Data de Nascimento 6,42096-2,54357 Ano de Nascimento Diferença 95,0% 6,4% ± 2 Nome Aproximado 87,1% 0,001% 85% Ano de Nascimento 4,08494-3,16782 CBP x Apac-SIA/SUS Data de Nascimento Caractere 83,0% 1,0% 65% Ano de Nascimento Diferença 89,5% 5,3% ± 2 9

Descrição dos campos de blocagem e dos campos de pareamento e os escores máximos e mínimos calculados. Escores CBP-SP versus Fundação Seade. CBP-SP, 1997 a 2005. Arquivo original Arquivo original CBP-SP FSEADE 236.907 registros 2.308.081 registros CBP-SP vs CBP-SP vs Campo de Blocagem Campo de Pareamento PO-AIM Apac-SIA/SUS Máx. Mín. Máx. Mín. 1. PBLOCO + UBLOCO + SEXO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 2. PBLOCO + SEXO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 Arquivo final CBP-SP 236.907 registros Limpeza e Padronização Arquivo final FSEADE 2.308.081 registros 3. UBLOCO + SEXO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 4. FPIMEIO NOME + FULTIMO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 NOME + SEXO Linkage Determinístico 5. PBLOCO + UBLOCO + SEXO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 +ANO 6. PBLOCO + SEXO +ANO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 Arquivo de relacionamento Agrega campos dos arquivos originais ao arquivo de relacionamento 7. UBLOCO + SEXO +ANO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 8. FPIMEIO NOME + FULTIMO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 NOME + SEXO + ANO 9. FPIMEIO NOME + SEXO + ANO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 Arquivo final de pares verdadeiros 20.463 registros Processo automático visual para seleção de pares verdadeiros 10. FULTIMO NOME + SEXO + ANO NOME + DATA DE NASCIMENTO 23,28-8,43 23,04-5,51 11. PBLOCO + UBLOCO + SEXO NOME + ANO DE NASCIMENTO 20,78-8,94 20,71-6,13 12. PBLOCO + SEXO NOME + ANO DE NASCIMENTO 20,78-8,94 20,71-6,13 13. UBLOCO + SEXO NOME + ANO DE NASCIMENTO 20,78-8,94 20,71-6,13 Arquivo final de pares verdadeiros 19.752 registros Identificação de 711 registros com mais de uma topografia de câncer 14. FPIMEIO NOME + FULTIMO NOME + SEXO NOME + ANO DE NASCIMENTO 20,78-8,94 20,71-6,13 Coeficiente bruto de mortalidade (por 100.000 habitantes) para o período de 1997 a 2005, antes e após o linkage. CBP-SP, 1997 a 2005. elacionamento Coeficiente Bruto de Mortalidade (por 100.000 habitantes) Antes Depois percentual PO-AIM 107,9 118,8 10,1 FSEADE 107,9 117,8 9,2 GEAL* 107,9 128,7 19,3 Curso on line reclink http://www.iesc.ufrj.br/reclink/eclink_arquivos/linkage_ims.doc ALMEIDA, M. F. ; MELLO JOGE, M. H. P.. O uso da técnica de linkage de sistemas de informação em estudos de coorte sobre a mortalidade neonatal. evista de Saúde Pública / Journal of Public Health, v. 30, n. 2, p. 141-147, 1996. Camargo Jr., Kenneth. de and Coeli, Cláudia M. eclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage. Cad. Saúde Pública, Jun 2000, vol.16, no.2, p.439-447. ISSN 0102-311X Peres, SV - Uso da técnica de linkage nos sistemas de informação em saúde: aplicação na base de dados do egistro de Câncer de base populacional do município de São Paulo Tese de doutorado. FSPUSP 2011 egistry Plus Link Plus: http://www.cdc.gov/cancer/npcr/tools/registryplus/lp.htm 10