Introdução
O Sistema de Informações sobre Nascidos Vivos (Sinasc) foi implantado com o propósito de reunir informações referentes aos nascimentos ocorridos em todo o território nacional. Desde 1990, o Sinasc tem-se mostrado relevante na caracterização e situação dos partos e dos nascimentos, bem como na identificação de grupos de risco/vulnerabilidade entre mães e crianças.1,2
A gravidez múltipla é fator de risco para desfechos negativos ao nascimento.3-6 O risco de morte de bebês múltiplos chega a ser 12 vezes maior, comparado ao mesmo risco para aqueles nascidos de gestação única. A principal explicação para tal diferença está no aumento da proporção de prematuridade e do crescimento intrauterino restrito em gemelares.7,8
Crianças de gestação múltipla também apresentam maior risco de desenvolvimento de condições indesejáveis no longo prazo, como paralisia cerebral, comprometimento cognitivo, atraso da linguagem, dificuldades de aprendizagem, problemas psiquiátricos e sociocomportamentais.7,8 Assim, é importante identificar nascimentos múltiplos em estudos que empregam bases de dados de estatísticas vitais.
Cada gemelar é incluído na base de nascimentos em registro separado, com número de identificação próprio. Adicionalmente, o Sinasc possui uma variável indicativa da quantidade de filhos na mesma gestação; porém, erros de preenchimento levam a um equívoco na classificação da informação sobre gemelaridade.1,9,10 O linkage de bancos de dados vem sendo utilizado para melhoria da qualidade da informação, mediante sua recuperação e confirmação em uma mesma base (processo de identificação de duplicidades) ou entre bases diferentes.11-14
O objetivo deste trabalho foi avaliar a aplicação de uma rotina determinística visando identificar gestações múltiplas na base do Sinasc do estado do Rio de Janeiro, nos anos de 2007 e 2008.
Métodos
Foi realizado estudo descritivo para avaliação da melhora da informação sobre gestações múltiplas na base do Sinasc, com a aplicação de rotina determinística (linkage interno).
Foram utilizados dados do Sinasc (N=433.882) do estado do Rio de Janeiro referentes aos anos de 2007 e 2008. Os registros de óbitos fetais (N=372) da base de dados do Sistema de Informações sobre Mortalidade (SIM) também foram consultados, na busca manual de gemelares, quando havia indicação de gestação múltipla no Sinasc mas apenas um registro de nascido vivo.
A rotina determinística baseou-se em quatro processos: (i) comparação dos registros (linkage interno à base de dados), empregando-se chave determinística composta pelas informações maternas (soundex do primeiro nome da mãe, soundex do segundo nome da mãe; soundex do último nome da mãe) e do nascimento (data de nascimento completa; código do estabelecimento de nascimento); (ii) comparação automática do endereço de residência, empregando-se uma rotina baseada na distância de edição de Levenshtein; (iii) busca manual de gemelares no SIM; e (iv) revisão manual.
Inicialmente, foi realizado o pré-processamento da base do Sinasc, visando a eliminação de registros com número da Declaração de Nascido Vivo duplicado.
Registros que apresentaram a mesma chave determinística foram avaliados segundo a informação sobre gestação (única; múltipla) no Sinasc. Os registros com classificação concordante, ou seja, que coincidiram no valor da chave e apresentavam indicação de gravidez múltipla (chave+/Sinasc+), e aqueles com classificação discordante, ou seja, que coincidiram no valor da chave mas apresentavam indicação de gravidez única (chave+/Sinasc-), tiveram os endereços comparados automaticamente. Quando os endereços coincidiam por completo, os registros foram classificados como gravidez múltipla. Quando os endereços eram discordantes, foi realizada etapa de revisão manual para classificação final. Nesta etapa, informações sobre nome completo da mãe, idade materna, local de nascimento, tipo de parto e de gravidez foram utilizadas pelo pesquisador para definir sua classificação como gestação múltipla ou não.
Quando a chave não identificou gemelaridade e a informação constante no Sinasc era de gravidez única (chave-/Sinasc-), os registros foram classificados como não gemelares. Para os registros com indicação de gravidez múltipla, em que a chave não identificou o registro como gemelar (chave-/Sinasc+), foi realizada busca manual na base de óbitos fetais do SIM para confirmação da situação de gemelar, uma vez que bebês da mesma gestação poderiam ser encontrados em sistemas de informações diferentes. Os que não foram encontrados na base de óbitos fetais foram submetidos à revisão manual.
Foram avaliados os registros que tiveram mudança de classificação (gestação múltipla ou única) após a aplicação da rotina completa (chave determinística, comparação de endereço, busca na base de óbitos fetais e revisão manual de pares). A classificação após a aplicação da rotina completa foi considerada padrão ouro para as análises de acurácia, tanto das informações sobre gemelares registradas no Sinasc como da classificação obtida por meio da aplicação de uma rotina reduzida, baseada tão somente nas informações contidas no Sinasc e na concordância da chave determinística, sem realização dos demais procedimentos (comparação de endereço, busca na base de óbitos fetais e revisão manual de pares). Neste caso, foram classificados como gestação múltipla os registros do Sinasc que apresentaram indicação de gestação múltipla ou que apresentaram registros concordantes na chave determinística. Os registros que não apresentaram informação de gestação múltipla no Sinasc e, simultaneamente, sem pares identificados pela chave determinística, foram considerados não gemelares. Calcularam-se a sensibilidade, especificidade e valor preditivo positivo, e respectivos intervalos de confiança de 95% (IC95%).
Os programas PostgreSQL 9.2 e Stata12 foram empregados, respectivamente, para a implementação da rotina de linkage determinístico e para as análises.
O projeto do estudo, fundamentado em dados secundários disponibilizados pela Secretaria de Estado de Saúde e Defesa Civil do Rio de Janeiro e desenvolvido de acordo com os princípios da ética na pesquisa, foi submetido ao Comitê de Ética em Pesquisa do IESC/UFRJ como emenda ao projeto ‘Registro Integrado de Saúde: avaliando longitudinalmente a morbimortalidade de uma coorte de nascidos vivos e de suas mães - Fase 1’ e aprovado em 3 de outubro de 2012 - Certificado de Apresentação para Apreciação Ética (CAAE) nº 07534512.9.0000.5286.
Resultados
Dos 433.882 registros de nascidos vivos do estado do Rio de Janeiro nos anos de 2007 e 2008, oito foram excluídos por duplicidades e 9.036 (2,1%) se encontravam classificados como gravidez múltipla no Sinasc; destes últimos, 8.136 apresentaram concordância na chave determinística (chave+/Sinasc+). Após implementação da rotina e conferência automática dos endereços, 6.508 registros, que apresentaram mesmo endereço, foram classificados automaticamente como gemelares; e 1.628 , que apresentaram endereços diferentes, classificados como gemelares após revisão manual (Figura 1).
Todos os 385 registros que apresentaram chave+/Sinasc- foram classificados como gemelares: 260 com mesmo endereço foram classificados automaticamente, e 125 após revisão manual (Figura 1).
Foram identificados 900 registros nos quais a rotina não apontou gemelaridade e a informação no Sinasc era de gravidez múltipla (chave-/Sinasc+). Destes, 78 registros encontrados após busca na base de óbitos fetais. Para os demais 738, a revisão manual identificou 452 gemelares e 370 não gemelares.
Houve 424.537 registros na categoria chave-/Sinasc(-); 9.051 foram classificados como gemelares e 424.823 como não gemelares, com mudança do status inicial em 671.
A acurácia da informação de gestação múltipla no Sinasc, quando comparada à classificação derivada da aplicação da rotina completa, foi de sensibilidade=95,8% (IC95% 95,3;96,2%), especificidade=99,9% (IC95% 99,9;99,9%) e valor preditivo positivo=95,9% (IC95% 95,5;96,3%) (Tabela 1).
Sinasca | Rotina determinística (padrão ouro) | Total | |
---|---|---|---|
Gemelar | Não gemelar | ||
Gemelar | 8.666 | 370 | 9.036 |
Não gemelar | 385 | 424.453 | 424.838 |
Total | 9.051 | 424.823 | 433.874 |
Sensibilidade = 95,8% (IC95%95,3;96,2%) | |||
Especificidade = 99,9% (IC95%99,9;99,9%) | |||
Valor preditivo positivo = 95,9% (IC95%95,5;96,3%) |
a) Sinasc: Sistema de Informações sobre Nascidos Vivos.
Já na aplicação da rotina sem revisão manual, a acurácia foi de sensibilidade=100,0%, especificidade=99,9% (IC95% 99,9;99,9%) e valor preditivo positivo=96,1% (IC95% 95,7i;96,4%) (Tabela 2).
Rotina sem revisão manual no Sinasca | Rotina determinística (padrão-ouro) | Total | |
---|---|---|---|
Gemelar | Não gemelar | ||
Gemelar | 9.051 | 370 | 9.337 |
Não gemelar | - | 424.537 | 424.537 |
Total | 9.051 | 424.823 | 433.874 |
Sensibilidade = 100,0% | |||
Especificidade = 99,9% (IC95%99,9;99,9%) | |||
Valor preditivo positivo = 95,9% (IC95%95,7;96,4%) |
a)Sinasc: Sistema de Informações sobre Nascidos Vivos.
Discussão
O estudo utilizou-se de rotina determinística, a qual permitiu a melhor classificação da informação sobre gestações múltiplas no Sinasc, evitando tanto erros falso-positivos como falso-negativos. A classificação equivocada de uma gestação múltipla, como duplicidade em processos de relacionamento de dados, representa um desafio no desenvolvimento de algoritmos para registros eletrônicos de saúde.15-17
A cobertura e a qualidade dos dados do Sinasc são fundamentais para sua confiabilidade como fonte de informações substanciais na avaliação e pesquisa em saúde.18,19
Ainda que se tenha observado boa qualidade da informação sobre tipo de gravidez no Sinasc do estado do Rio de Janeiro, resultado concordante com a literatura,1,20,21 a aplicação da rotina é útil e de fácil execução. Porém, dadas as características particulares dos gemelares, estudos sobre desfechos neonatais, em geral, excluem os registros desse grupo, que devem ser analisados separadamente.22,23 A baixa frequência de gemelares em relação ao total de nascimentos faz com que mudanças no número de casos, mesmo quando pequenas em termos absolutos, tenham importância relativa. Ademais, a classificação de Robson passou a ser divulgada no Sinasc, sendo a informação acurada sobre gemelaridade necessária para a adequada categorização das mulheres.24
Técnicas de linkage de bases de dados, determinísticas ou probabilísticas, vêm sendo utilizadas para melhorar a qualidade da informação.12,25 Rotinas determinísticas apresentam ótimo desempenho quando a qualidade dos dados é boa:26,27 seu processamento é rápido e podem ser empregadas sem revisão manual dos links formados.
A rotina desenvolvida nesta pesquisa incluiu etapa de revisão manual, viável apenas para bases de pequeno ou médio volume em situações de discordância das informações. Nas situações de bases de maior volume de registros, a aplicação tão somente da chave, sem a realização da etapa de revisão manual, aumenta a sensibilidade para a identificação de gemelares sem alteração importante da especificidade e do valor preditivo positivo. Uma alternativa intermediária seria o processamento manual apenas dos registros não identificados pela chave, embora, para estes registros, exista informação de gravidez múltipla no Sinasc.
Como limitação do presente estudo, cumpre destacar a não revisão manual de todos os casos. Entretanto, é muito baixa a probabilidade de equívoco na classificação do tipo de gravidez quando há concordância entre a chave e o Sinasc. Ainda que o incremento com a recuperação de gemelares pareça pequeno, o custo de sua realização é baixo diante da possibilidade de melhora da informação. Sugere-se que a rotina proposta passe a ser empregada usualmente, em especial nos estudos sobre desfechos neonatais em gemelares.