<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1679-4974</journal-id>
<journal-title><![CDATA[Epidemiologia e Serviços de Saúde]]></journal-title>
<abbrev-journal-title><![CDATA[Epidemiol. Serv. Saúde]]></abbrev-journal-title>
<issn>1679-4974</issn>
<publisher>
<publisher-name><![CDATA[Secretaria de Vigilância em Saúde e Ambiente - Ministério da Saúde do Brasil]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1679-49742009000200002</article-id>
<article-id pub-id-type="doi">10.5123/S1679-49742009000200002</article-id>
<title-group>
<article-title xml:lang="pt"><![CDATA[A construção da Base Nacional de Dados em Terapia Renal Substitutiva (TRS) centrada no indivíduo: relacionamento dos registros de óbitos pelo subsistema de Autorização de Procedimentos de Alta Complexidade (Apac/SIA/SUS) e pelo Sistema de Informações sobre Mortalidade (SIM) - Brasil, 2000-2004]]></article-title>
<article-title xml:lang="en"><![CDATA[Building the National Database on Renal Replacement Therapy Focused on the Individual: Probabilistic Record Linkage of Death Registries at the High Complexity Procedures Authorization subsystem (Apac/SIA/SUS) and at the Mortality Information System (SIM) - Brazil, 2000-2004]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Queiroz]]></surname>
<given-names><![CDATA[Odilon Vanni de]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Guerra Júnior]]></surname>
<given-names><![CDATA[Augusto Afonso]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Machado]]></surname>
<given-names><![CDATA[Carla Jorge]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Andrade]]></surname>
<given-names><![CDATA[Eli Lola Gurgel]]></given-names>
</name>
<xref ref-type="aff" rid="A04"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Meira Júnior]]></surname>
<given-names><![CDATA[Wagner]]></given-names>
</name>
<xref ref-type="aff" rid="A05"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Acúrcio]]></surname>
<given-names><![CDATA[Francisco de Assis]]></given-names>
</name>
<xref ref-type="aff" rid="A06"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Santos Filho]]></surname>
<given-names><![CDATA[Walter dos]]></given-names>
</name>
<xref ref-type="aff" rid="A07"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cherchiglia]]></surname>
<given-names><![CDATA[Mariângela Leal]]></given-names>
</name>
<xref ref-type="aff" rid="A04"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Mestrando em Saúde Pública pela Universidade Federal de Minas Gerais  ]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Doutorando em Saúde Pública pela Universidade Federal de Minas Gerais  ]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidade Federal de Minas Gerais Faculdade de Ciências Econômicas Departamento de Demografia]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<aff id="A04">
<institution><![CDATA[,Universidade Federal de Minas Gerais Faculdade de Medicina Departamento de Medicina Preventiva e Social]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<aff id="A05">
<institution><![CDATA[,Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Ciência da Computação]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<aff id="A06">
<institution><![CDATA[,Universidade Federal de Minas Gerais Faculdade de Farmácia Departamento de Farmácia Social]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<aff id="A07">
<institution><![CDATA[,Mestrando em Ciência da Computação pela Universidade Federal de Minas Gerais  ]]></institution>
<addr-line><![CDATA[Belo Horizonte MG]]></addr-line>
<country>Brasil</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2009</year>
</pub-date>
<volume>18</volume>
<numero>2</numero>
<fpage>107</fpage>
<lpage>120</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.iec.gov.br/scielo.php?script=sci_arttext&amp;pid=S1679-49742009000200002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.iec.gov.br/scielo.php?script=sci_abstract&amp;pid=S1679-49742009000200002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.iec.gov.br/scielo.php?script=sci_pdf&amp;pid=S1679-49742009000200002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="pt"><p><![CDATA[O relacionamento de registros vem sendo utilizado para integrar sistemas de informações em saúde. Neste trabalho, foram relacionados os registros de duas bases de dados entre 2000 e 2004: a Base Nacional de Dados em Terapia Renal Substitutiva (TRS), construída a partir dos dados do subsistema de Autorização de Procedimentos Ambulatoriais de Alta Complexidade (Apac) do Sistema de Informações Ambulatoriais do Sistema Único de Saúde (SIA/SUS); e o Sistema de Informações sobre Mortalidade (SIM). O objetivo do estudo foi comparar e complementar as informações de mortalidade da base TRS com informações do SIM. Os 176.773 registros da base TRS foram relacionados com 4.636.197 registros do SIM em três etapas, uma determinística e duas probabilísticas. Obteve-se uma concordância de 97,3% entre os pares julgados corretos, quando avaliados por dois revisores. O estudo demonstra as potencialidades da utilização do subsistema Apac/SIA/SUS, ainda pouco explorado, que, integrado a outros sistemas de informações em saúde, permite a organização da informação por paciente.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Record linkage has been used to integrate healthcare information systems. In this descriptive study in Brazil, records, from 2000 to 2004, of a National Database on Renal Replacement Therapy (TRS) - built from the data available at the High Complexity Procedures Authorization Subsystem (Apac) of the Outpatient Information System/National Health System (SIA/SUS) - were linked to data available at the Mortality Information System (SIM) in order to compare and complement mortality information on both TRS and SIM. The records of 176,773 patients available at TRS were linked with 4,636,197 records available at SIM. The process has consisted of three stages, one deterministic and two probabilistic. The match of 97.3% of records from both systems found by two clerical reviewers (who agreed completely on their evaluation) shows the potential use of Apac - a yet little used system - when integrated to other health information systems to help organize information per patient.]]></p></abstract>
<kwd-group>
<kwd lng="pt"><![CDATA[registro médico coordenado]]></kwd>
<kwd lng="pt"><![CDATA[sistemas de informações]]></kwd>
<kwd lng="pt"><![CDATA[registros de mortalidade]]></kwd>
<kwd lng="pt"><![CDATA[terapia renal substitutiva]]></kwd>
<kwd lng="en"><![CDATA[medical record linkage]]></kwd>
<kwd lng="en"><![CDATA[information systems]]></kwd>
<kwd lng="en"><![CDATA[mortality registries]]></kwd>
<kwd lng="en"><![CDATA[renal replacement therapy]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font size="2" face="Verdana"><b>ARTIGO ORIGINAL</b></font></p>     <p align="right">&nbsp;</p>     <p><font size="2" face="Verdana"> <font size="4"><b><a name="topo"></a>A    constru&ccedil;&atilde;o da Base Nacional de Dados em Terapia Renal Substitutiva    (TRS) centrada no indiv&iacute;duo: relacionamento dos registros de &oacute;bitos    pelo subsistema de Autoriza&ccedil;&atilde;o de Procedimentos de Alta Complexidade    (Apac/SIA/SUS) e pelo Sistema de Informa&ccedil;&otilde;es sobre Mortalidade    (SIM) &#8211; Brasil, 2000-2004</b><sup><b><a href="#as">*</a></b></sup></font></font></p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana"><b>Building the National Database on Renal    Replacement Therapy Focused on the Individual: Probabilistic Record Linkage    of Death Registries at the High Complexity Procedures Authorization subsystem    (Apac/SIA/SUS) and at the Mortality Information System (SIM) &#8211; Brazil,    2000-2004</b></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana"><b>Odilon Vanni de Queiroz<sup>I</sup>; Augusto Afonso    Guerra J&uacute;nior<sup>II</sup>; Carla Jorge Machado<sup>III</sup>; Eli Lola Gurgel Andrade<sup>IV</sup>; Wagner Meira    J&uacute;nior<sup>V</sup>; Francisco de Assis Ac&uacute;rcio<sup>VI</sup>; Walter dos Santos Filho<sup>VII</sup>; Mari&acirc;ngela    Leal Cherchiglia<sup>IV</sup></b></font></p>     <p><font size="2" face="Verdana"><sup>I</sup>Mestrando em Sa&uacute;de P&uacute;blica    pela Universidade Federal de Minas Gerais, Belo Horizonte-MG, Brasil    <br>   </font><font size="2" face="Verdana"><sup>II</sup>Doutorando em Sa&uacute;de    P&uacute;blica pela Universidade Federal de Minas Gerais, Belo Horizonte-MG,    Brasil    ]]></body>
<body><![CDATA[<br>   </font><font size="2" face="Verdana"><sup>III</sup>Departamento de Demografia,    Faculdade de Ci&ecirc;ncias Econ&ocirc;micas, Universidade Federal de Minas    Gerais, Belo Horizonte-MG, Brasil    <br>   </font><font size="2" face="Verdana"><sup>IV</sup>Departamento de Medicina Preventiva    e Social, Faculdade de Medicina, Universidade Federal de Minas Gerais, Belo    Horizonte-MG, Brasil    <br>   </font><font size="2" face="Verdana"><sup>V</sup>Departamento de Ci&ecirc;ncia    da Computa&ccedil;&atilde;o, Instituto de Ci&ecirc;ncias Exatas, Universidade    Federal de Minas Gerais, Belo Horizonte-MG, Brasil    <br>   </font><font size="2" face="Verdana"><sup>VI</sup>Departamento de Farm&aacute;cia    Social, Faculdade de Farm&aacute;cia, Universidade Federal de Minas Gerais,    Belo Horizonte-MG, Brasil    <br>   </font><font size="2" face="Verdana"><sup>VII</sup>Mestrando em Ci&ecirc;ncia    da Computa&ccedil;&atilde;o pela Universidade Federal de Minas Gerais, Belo    Horizonte-MG, Brasil</font></p>     <p><font size="2" face="Verdana"><a href="#endereco">Endere&ccedil;o para correspond&ecirc;ncia</a></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p> <hr size="1" noshade>     <p><font size="2" face="Verdana"><b>RESUMO</b></font></p>     <p><font size="2" face="Verdana">O relacionamento de registros vem sendo utilizado    para integrar sistemas de informa&ccedil;&otilde;es em sa&uacute;de. Neste trabalho,    foram relacionados os registros de duas bases de dados entre 2000 e 2004: a    Base Nacional de Dados em Terapia Renal Substitutiva (TRS), constru&iacute;da    a partir dos dados do subsistema de Autoriza&ccedil;&atilde;o de Procedimentos    Ambulatoriais de Alta Complexidade (Apac) do Sistema de Informa&ccedil;&otilde;es    Ambulatoriais do Sistema &Uacute;nico de Sa&uacute;de (SIA/SUS); e o Sistema    de Informa&ccedil;&otilde;es sobre Mortalidade (SIM). O objetivo do estudo foi    comparar e complementar as informa&ccedil;&otilde;es de mortalidade da base    TRS com informa&ccedil;&otilde;es do SIM. Os 176.773 registros da base TRS foram    relacionados com 4.636.197 registros do SIM em tr&ecirc;s etapas, uma determin&iacute;stica    e duas probabil&iacute;sticas. Obteve-se uma concord&acirc;ncia de 97,3% entre    os pares julgados corretos, quando avaliados por dois revisores. O estudo demonstra    as potencialidades da utiliza&ccedil;&atilde;o do subsistema Apac/SIA/SUS, ainda    pouco explorado, que, integrado a outros sistemas de informa&ccedil;&otilde;es    em sa&uacute;de, permite a organiza&ccedil;&atilde;o da informa&ccedil;&atilde;o    por paciente.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana"> <b>Palavras-chave:</b> registro m&eacute;dico    coordenado; sistemas de informa&ccedil;&otilde;es; registros de mortalidade;    terapia renal substitutiva.</font></p> <hr size="1">     <p><font size="2" face="Verdana"><b>SUMMARY</b></font></p>     <p><font size="2" face="Verdana"> Record linkage has been used to integrate healthcare    information systems. In this descriptive study in Brazil, records, from 2000    to 2004, of a National Database on Renal Replacement Therapy (TRS) &#8211; built    from the data available at the High Complexity Procedures Authorization Subsystem    (Apac) of the Outpatient Information System/National Health System (SIA/SUS)    &#8211; were linked to data available at the Mortality Information System (SIM)    in order to compare and complement mortality information on both TRS and SIM.    The records of 176,773 patients available at TRS were linked with 4,636,197    records available at SIM. The process has consisted of three stages, one deterministic    and two probabilistic. The match of 97.3% of records from both systems found    by two clerical reviewers (who agreed completely on their evaluation) shows    the potential use of Apac &#8211; a yet little used system &#8211; when integrated    to other health information systems to help organize information per patient.</font></p>     <p><font size="2" face="Verdana"> <b>Key words:</b> medical record linkage;    information systems; mortality registries; renal replacement therapy.</font></p> <hr size="1" noshade>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana"><b>Introdu&ccedil;&atilde;o</b></font></p>     <p><font size="2" face="Verdana">Os sistemas de informa&ccedil;&otilde;es dispon&iacute;veis    no Sistema &Uacute;nico de Sa&uacute;de (SUS) s&atilde;o estrat&eacute;gicos    na defini&ccedil;&atilde;o de prioridades e formula&ccedil;&atilde;o de pol&iacute;ticas    de sa&uacute;de. Entre tais sistemas, destacam-se: o Sistema de Informa&ccedil;&otilde;es    Ambulatoriais (SIA/SUS), que cont&eacute;m dados da produ&ccedil;&atilde;o nacional    de atendimentos em n&iacute;vel ambulatorial; o Sistema de Informa&ccedil;&otilde;es    Hospitalares (SIH/SUS), com dados da produ&ccedil;&atilde;o nacional de atendimentos    no &acirc;mbito hospitalar; o Sistema de Informa&ccedil;&otilde;es sobre Mortalidade    (SIM), com informa&ccedil;&otilde;es de base populacional sobre mortalidade;    e o Sistema de Informa&ccedil;&otilde;es sobre Nascidos Vivos (Sinasc), com    os registros dos nascidos vivos no pa&iacute;s.<sup>1,2</sup> Apesar do esfor&ccedil;o    para se criar uma identifica&ccedil;&atilde;o &uacute;nica de cada usu&aacute;rio    do SUS, por meio do Cart&atilde;o Nacional de Sa&uacute;de, esses sistemas ainda    n&atilde;o funcionam de forma integrada, tendo, inclusive, gestores diferentes.    Cada sistema de informa&ccedil;&otilde;es abrange apenas uma dimens&atilde;o    espec&iacute;fica do cuidado ou evento relativo &agrave; sa&uacute;de e n&atilde;o    permite que os indiv&iacute;duos sejam facilmente rastreados em sua trajet&oacute;ria    no SUS.<sup>3,4</sup></font></p>     <p><font size="2" face="Verdana">O relacionamento de registros, ou <i>record linkage</i>,    representa uma alternativa para integrar dados dos sistemas de informa&ccedil;&otilde;es    em sa&uacute;de, ampliando o escopo de perguntas a serem respondidas, al&eacute;m    de contribuir para a melhoria da qualidade dos dados registrados e permitir    o seguimento longitudinal da assist&ecirc;ncia ao paciente.<sup>5,6</sup> Tal    procedimento permite encontrar registros diferentes de uma mesma entidade em    bases de dados distintas, ou identificar registros duplicados em uma mesma base    de dados, podendo ser determin&iacute;stico ou probabil&iacute;stico.<sup>2,7</sup>    O relacionamento determin&iacute;stico considera como equivalentes os registros    que forem concordantes (considerados iguais) em uma determinada chave (conjunto    de identificadores). &Eacute; indicado para situa&ccedil;&otilde;es em que exista    uma chave un&iacute;voca entre os registros, como por exemplo, o cadastro de    pessoa f&iacute;sica (CPF). Em sua aus&ecirc;ncia, a tarefa &eacute; mais complexa.    Pode-se utilizar uma combina&ccedil;&atilde;o de campos, considerando-se equivalentes    os registros que apresentam, por exemplo, datas de nascimento e nomes id&ecirc;nticos.    Nestes casos, o relacionamento probabil&iacute;stico &eacute; mais indicado,    pois classifica pares de registros em prov&aacute;veis, improv&aacute;veis e    duvidosos, levando-se em considera&ccedil;&atilde;o as possibilidades de erros    de preenchimento, grafia ou ocorr&ecirc;ncia de hom&ocirc;nimos.<sup>8</sup></font></p>     <p><font size="2" face="Verdana">A utiliza&ccedil;&atilde;o de bancos de dados    para analisar o padr&atilde;o e os resultados do cuidado aos pacientes submetidos    &agrave; terapia renal substitutiva (TRS) tem sido bastante encorajada. O subsistema    de Autoriza&ccedil;&atilde;o de Procedimentos Ambulatoriais de Alta Complexidade    (custo) &#8211; Apac &#8211;, integrante do Sistema de Informa&ccedil;&otilde;es    Ambulatoriais &#8211; SIA/SUS &#8211; &eacute; reconhecido como a maior fonte    de dados sobre as TRS no Brasil, pelas informa&ccedil;&otilde;es epidemiol&oacute;gicas    dispon&iacute;veis e pela possibilidade de acompanhamento de s&eacute;ries hist&oacute;ricas    que ele permite.<sup>9</sup> Com o objetivo de realizar uma an&aacute;lise situacional    das TRS, foi ent&atilde;o constru&iacute;da, a partir do banco de dados administrativos    do subsistema Apac/ SIA/SUS, uma Base Nacional de Dados em TRS.<sup>10</sup></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana">A informa&ccedil;&atilde;o sobre a ocorr&ecirc;ncia    do &oacute;bito, originalmente presente na base TRS, era oriunda somente do    subsistema Apac/SIA/SUS. Neste subsistema, a informa&ccedil;&atilde;o depende    da notifica&ccedil;&atilde;o dos &oacute;bitos pelos prestadores de servi&ccedil;os,    que, eventualmente, podem n&atilde;o estar cientes desses &oacute;bitos. Al&eacute;m    disso, essa informa&ccedil;&atilde;o no subsistema Apac/SIA/SUS &eacute; incompleta,    pois n&atilde;o apresenta a causa do &oacute;bito.<sup>11</sup> Nesse sentido, o Sistema    de Informa&ccedil;&otilde;es sobre Mortalidade &#8211; SIM &#8211;, baseado    nas informa&ccedil;&otilde;es das declara&ccedil;&otilde;es de &oacute;bito    &#8211; DO &#8211; em &acirc;mbito nacional, pode ser de grande aux&iacute;lio    como fonte complementar &agrave;s informa&ccedil;&otilde;es de &oacute;bito    na base TRS.<sup>12</sup> A premissa b&aacute;sica &eacute; a seguinte: a coincid&ecirc;ncia    &#8211; ou complementariedade &#8211; das informa&ccedil;&otilde;es em dois    sistemas distintos serviria como evid&ecirc;ncia de sua confiabilidade. A base    de dados nacional do SIM &eacute; gerada e administrada pela Secretaria de Vigil&acirc;ncia    em Sa&uacute;de do Minist&eacute;rio da Sa&uacute;de &#8211; SVS/MS &#8211;    em parceria com o Departamento de Inform&aacute;tica do SUS &#8211; Datasus.<sup>13</sup></font></p>     <p><font size="2" face="Verdana">Este trabalho faz parte do projeto de pesquisa    'Avalia&ccedil;&atilde;o Econ&ocirc;mico-Epidemiol&oacute;gica das Terapias    Renais Substitutivas no Brasil', e tem como objetivo relacionar os registros    das bases TRS e SIM, descrevendo detalhadamente o procedimento. Outrossim, procurou-se    avaliar a confiabilidade dos pares considerados corretos pela inspe&ccedil;&atilde;o    manual.</font></p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana"><b>Metodologia</b></font></p>     <p><font size="2" face="Verdana"> O relacionamento probabil&iacute;stico de registros    alcan&ccedil;ou sua formaliza&ccedil;&atilde;o te&oacute;rica e matem&aacute;tica    com o trabalho de Fellegi e Sunter,<sup>14</sup> baseado na contribui&ccedil;&atilde;o    pioneira de Newcombe e colaboradores.<sup>15</sup> Os registros s&atilde;o comparados    em pares e, posteriormente, classificados em prov&aacute;veis, improv&aacute;veis    ou duvidosos. Esta classifica&ccedil;&atilde;o &eacute; feita com base em pesos    de concord&acirc;ncia e discord&acirc;ncia, para cada identificador, definidos    a partir da probabilidade condicional de concord&acirc;ncia de cada identificador    em pares verdadeiros (<b>m</b>), e na probabilidade condicional de concord&acirc;ncia    do identificador em pares falsos (<b>u</b>). Estes pesos podem assumir valores    no intervalo de zero (inclusive) a 1 (inclusive).</font></p>     <p><font size="2" face="Verdana">No caso de concord&acirc;ncia, a raz&atilde;o    entre <b>m</b> e <b>u</b> &eacute; utilizada para decidir quais registros seriam    considerados pares verdadeiros. E no caso de discord&acirc;ncia, a raz&atilde;o    entre (<b>1-m</b>) e (<b>1-u</b>) &eacute; utilizada na decis&atilde;o de quais    registros seriam considerados pares falsos. Usualmente, utiliza-se <b>log<sub>2</sub>(m/u)</b>    e <b>log<sub>2</sub>&#091;(1-m)/(1-u)&#093;</b> como o peso do pareamento em    caso de concord&acirc;ncia e em caso de discord&acirc;ncia, respectivamente.    O escore final de cada par &eacute; resultado da soma dos pesos para cada identificador.    Idealmente, um identificador adequado para o prop&oacute;sito do relacionamento    probabil&iacute;stico deve ter o valor de <b>m</b> pr&oacute;ximo a 1 e o de    <b>u</b> pr&oacute;ximo a zero.<sup>5</sup></font></p>     <p><font size="2" face="Verdana"> Uma alternativa aos pesos de concord&acirc;ncia    utilizados, no caso dos identificadores possu&iacute;rem distribui&ccedil;&atilde;o    de freq&uuml;&ecirc;ncias muito desigual, &eacute; utilizar um recurso chamado    'tabela de freq&uuml;&ecirc;ncia', em que o peso de concord&acirc;ncia &eacute;    o logaritmo na base 2 do inverso da freq&uuml;&ecirc;ncia relativa de cada categoria,    ou valor, atribu&iacute;da ao identificador.<sup>16</sup> Ou seja, o peso de    concord&acirc;ncia &eacute; definido pela fun&ccedil;&atilde;o <b>F(x) = log<sub>2</sub>&#091;1/p(x)&#093;</b>,    onde <b>p(x)</b> &eacute; a probabilidade de a vari&aacute;vel assumir o valor    <b>x</b>. Essa t&eacute;cnica se baseia no pressuposto de que valores mais raros    de um identificador apresentam maior poder de discrimina&ccedil;&atilde;o, comparativamente    aos mais freq&uuml;entes. <sup>15</sup> Por exemplo, se dois registros s&atilde;o    concordantes quanto ao primeiro nome, essa concord&acirc;ncia tem um peso maior    para determinar que se trata de um mesmo indiv&iacute;duo, no caso de um nome    raro como 'Odilon'. No caso de um nome comum, como 'Jo&atilde;o', o peso de    concord&acirc;ncia atribu&iacute;do deve ser menor.</font></p>     <p><font size="2" face="Verdana">Uma vez computado o escore para cada par (a soma    dos pesos individuais dos identificadores), &eacute; gerado um gr&aacute;fico    da distribui&ccedil;&atilde;o de freq&uuml;&ecirc;ncia dos pares segundo o escore    obtido. A distribui&ccedil;&atilde;o esperada dos escores &eacute; bimodal:    os pares distribu&iacute;dos em torno da primeira moda s&atilde;o os pares improv&aacute;veis    (de escores mais baixos); e os distribu&iacute;dos em torno da segunda moda,    os pares prov&aacute;veis (com escores mais elevados). Os valores intermedi&aacute;rios,    compreendidos entre essas duas distribui&ccedil;&otilde;es, s&atilde;o denominados    pares duvidosos por n&atilde;o ser evidente a qual distribui&ccedil;&atilde;o    pertencem.</font></p>     <p><font size="2" face="Verdana">Operacionalmente, o relacionamento de registros    consiste em tr&ecirc;s processos distintos: (1) padroniza&ccedil;&atilde;o;    (2) blocagem; e (3) <i>linkagem</i> de registros.<sup>17</sup></font></p>     <p><font size="2" face="Verdana"> A padroniza&ccedil;&atilde;o dos registros &eacute;    a primeira etapa do processo. Herzog, Scheuren e Winkler<sup>18</sup> subdividem    essa etapa, tamb&eacute;m chamada de limpeza, em (i) padroniza&ccedil;&atilde;o    e (ii) divis&atilde;o dos identificadores em termos (<i>parsing</i>). Seu objetivo    &eacute; tornar t&atilde;o grande quanto poss&iacute;vel a probabilidade, pelo    relacionamento, de campos equivalentes serem identificados como tais. A padroniza&ccedil;&atilde;o    consiste na codifica&ccedil;&atilde;o dos campos dos arquivos de dados em formato    comum, para compara&ccedil;&atilde;o, de forma que essa codifica&ccedil;&atilde;o    seja consistente. Compreende, ainda, a elimina&ccedil;&atilde;o de entradas    fora de escopo e a verifica&ccedil;&atilde;o da integridade das bases. A divis&atilde;o    em termos consiste na subdivis&atilde;o das vari&aacute;veis, de forma a serem    mais facilmente comparadas em um procedimento autom&aacute;tico, via computador:    por exemplo, a subdivis&atilde;o de endere&ccedil;os em 'logradouro', 'n&uacute;mero'    e 'complemento'; ou a subdivis&atilde;o de nomes em 'nome' e 'sobrenome'.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana">Para reduzir o custo computacional da compara&ccedil;&atilde;o    de todos os poss&iacute;veis pares &#8211; que vem a ser o custo do produto    cartesiano dos registros das bases comparadas &#8211;, utilizam-se t&eacute;cnicas    de blocagem que permitem t&atilde;o-somente a compara&ccedil;&atilde;o de pares    com maior probabilidade de equival&ecirc;ncia. Segundo a tradi&ccedil;&atilde;o,    o processo consiste na cria&ccedil;&atilde;o de parti&ccedil;&otilde;es dos    arquivos, de tal maneira a serem comparados apenas os registros com um ou mais    campos coincidentes entre as bases.<sup>3</sup> A terceira etapa &#8211; linkagem de registros    &#8211; compreende o c&ocirc;mputo dos escores para cada par, em que s&atilde;o    aplicados os pesos obtidos para cada vari&aacute;vel, conforme j&aacute; descrito.</font></p>     <p><font size="2" face="Verdana"><b>Fonte dos dados</b></font></p>     <p><font size="2" face="Verdana"> A Base Nacional de Dados em TRS foi constru&iacute;da    a partir de registros identificados do subsistema Apac/SIA/SUS no per&iacute;odo    de 1<sup>o</sup> de novembro de 1999 a 31 de junho de 2005. A aplica&ccedil;&atilde;o    da t&eacute;cnica de relacionamento probabil&iacute;stico permitiu a gera&ccedil;&atilde;o    de um cadastro &uacute;nico de pacientes em TRS no Brasil.<sup>10</sup> A base TRS inclui    informa&ccedil;&otilde;es para 176.773 pacientes que iniciaram alguma modalidade    de TRS entre 2000 e 2004: vari&aacute;veis demogr&aacute;ficas (sexo, idade,    Munic&iacute;pio, regi&atilde;o de resid&ecirc;ncia), cl&iacute;nicas &#091;diagn&oacute;stico    de causa de insufici&ecirc;ncia renal cr&ocirc;nica &agrave; entrada do paciente    no sistema, segundo a Classifica&ccedil;&atilde;o Estat&iacute;stica Internacional    de Doen&ccedil;as e Problemas Relacionados &agrave; Sa&uacute;de &#8211; D&eacute;cima    Revis&atilde;o (CID-10)&#093;, de modalidade de tratamento (hemodi&aacute;lise, di&aacute;lise    peritoneal e transplante renal&#093;, tempo de tratamento) e de resultados (&oacute;bito,    continuidade de tratamento ou perda de seguimento); e vari&aacute;veis relativas    a gastos. A informa&ccedil;&atilde;o de &oacute;bitos era coletada, originalmente,    pelo campo 'Motivo de cobran&ccedil;a' da Apac/SIA/SUS, cujos c&oacute;digos    5.4, 9.1, 9.2 e 9,3 representam ocorr&ecirc;ncias relacionadas ao &oacute;bito.<sup>11</sup></font></p>     <p><font size="2" face="Verdana"> As bases de dados identificadas do Apac/SIA/SUS    e do SIM foram obtidas junto ao Departamento de Economia da Sa&uacute;de (DES),    da Secretaria de Ci&ecirc;ncia, Tecnologia e Insumos Estrat&eacute;gicos do    Minist&eacute;rio da Sa&uacute;de (SCTIE/MS), um importante parceiro institucional    no desenvolvimento do Projeto TRS. Para utiliza&ccedil;&atilde;o das bases,    firmou-se termo de compromisso e responsabilidade entre o DES/SCTIE/MS e o Grupo    de Pesquisa em Economia da Sa&uacute;de da Universidade Federal de Minas Gerais    (GPES/UFMG). O <i>software</i> utilizado foi o Sistema Gerenciador de Banco    de Dados MySQL,<sup>19</sup> vers&atilde;o 5.0. Por interm&eacute;dio de uma    rotina em linguagem SQL (Structured Query Language), foram realizados os processos    de padroniza&ccedil;&atilde;o, blocagem e linkagem. A rotina encontra-se dispon&iacute;vel,    mediante requisi&ccedil;&atilde;o encaminhada ao autor principal deste manuscrito.</font></p>     <p><font size="2" face="Verdana">As duas bases de dados utilizadas possu&iacute;am    alguns identificadores comuns, os quais possibilitaram o relacionamento: 'nome    completo do indiv&iacute;duo'; 'nome completo da m&atilde;e'; 'sexo'; 'data    de nascimento'; 'unidade da federa&ccedil;&atilde;o (UF) de nascimento';    e 'c&oacute;digo IBGE do Munic&iacute;pio de resid&ecirc;ncia', definido    pela Funda&ccedil;&atilde;o Instituto Brasileiro de Geografia e Estat&iacute;stica    (IBGE). Al&eacute;m destes, a data do &oacute;bito no sistema SIM foi comparada    &agrave; data de refer&ecirc;ncia da &uacute;ltima Apac do paciente na base    TRS. Para tanto, partiu-se do princ&iacute;pio de que a insufici&ecirc;ncia    renal cr&ocirc;nica &eacute; uma doen&ccedil;a irrevers&iacute;vel e, por conseguinte,    os pacientes em TRS tenderiam a continuar sob tratamento at&eacute; a data de    seu &oacute;bito. Mesmo os pacientes submetidos a transplante renal permaneceriam    em acompanhamento, recebendo medicamentos imunossupressores durante toda sua    vida, o que &eacute; registrado na Apac. Sendo assim, &eacute; bastante razo&aacute;vel    supor que a data de refer&ecirc;ncia da &uacute;ltima Apac do indiv&iacute;duo    seja pr&oacute;xima &agrave; data do eventual &oacute;bito.</font></p>     <p><font size="2" face="Verdana"> A base SIM foi inspecionada para cada Estado,    ano a ano, para verificar a completude dos dados. Cabe observar que, embora    o prop&oacute;sito do presente estudo n&atilde;o seja o relacionamento anual    entre as bases TRS e SIM, a observ&acirc;ncia de seu comportamento ao longo    do tempo possibilitou identificar poss&iacute;veis distor&ccedil;&otilde;es    nos n&uacute;meros de registros esperados. De fato, observou-se aus&ecirc;ncia    de dados de identifica&ccedil;&atilde;o nas declara&ccedil;&otilde;es de &oacute;bito    para alguns Estados brasileiros, referentes aos anos de 2000 e 2001. As UF mais    acometidas por essa aus&ecirc;ncia foram S&atilde;o Paulo, Minas Gerais e Santa    Catarina, conforme demonstra a <a href="#t1">Tabela 1</a>. Cabe ressaltar: tal    fato n&atilde;o representa sub-registro do SIM mas aus&ecirc;ncia de dados de    identifica&ccedil;&atilde;o nas declara&ccedil;&otilde;es de &oacute;bito no    banco de dados disponibilizado, o que impossibilitou o relacionamento de registros.</font></p>     <p><font size="2" face="Verdana"><a name="t1"></a></font></p>     <p>&nbsp;</p>     <p align="center"><a href="#11"><img src="/img/revistas/ess/v18n2/2a02t1.gif" border="0"></a></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana"> <b>Etapa de padroniza&ccedil;&atilde;o    dos dados</b></font></p>     <p><font size="2" face="Verdana"> A padroniza&ccedil;&atilde;o e a limpeza dos    dados constituem a etapa mais trabalhosa e cr&iacute;tica do processo, por uma    s&eacute;rie de problemas de consist&ecirc;ncia e integridade das duas bases.    Nessa fase, realizou-se uma busca por inconsist&ecirc;ncias que pudessem dificultar    o relacionamento, tais como erros de preenchimento, dados incompletos ou ausentes.    A freq&uuml;&ecirc;ncia de campos incompletos influi diretamente na probabilidade    de obten&ccedil;&atilde;o de pares, especialmente quando se trata de bases de    dados dependentes de poucos identificadores para seu pareamento. Para cada identificador,    estabeleceu-se uma formata&ccedil;&atilde;o que fosse comum entre as duas bases    de dados, bem como um conjunto de valores v&aacute;lidos. Os valores n&atilde;o    pertencentes a esse conjunto foram convertidos para 'NULO' e suas freq&uuml;&ecirc;ncias,    discriminadas por identificador, s&atilde;o apresentadas na <a href="#t2">Tabela    2</a>. A base TRS teve, ao todo, 7.065 registros (4,0%) com algum identificador    convertido para 'NULO'. Essa informa&ccedil;&atilde;o, contudo, n&atilde;o reflete    diretamente as freq&uuml;&ecirc;ncias de inconsist&ecirc;ncias nos dados do    subsistema Apac/SIA/ SUS, uma vez que houve tratamento desses dados na constru&ccedil;&atilde;o    da base. O SIM, entretanto, apresentou uma freq&uuml;&ecirc;ncia significativa    de registros para os quais essa convers&atilde;o foi efetuada: ao todo, 1.172.430    (25,3%). Muito embora esse percentual possa parecer elevado, &eacute; mister    destacar que mais da metade desses registros identificados (595.753) era de    declara&ccedil;&otilde;es de &oacute;bito referentes aos anos 2000 e 2001, para    os quais alguns Estados foram ausentes quanto a esses registros (<a href="#t1">Tabela    1</a>). Ao se analisar apenas o per&iacute;odo de 2002 a 2004, esse percentual    cai para 19,2%. Ademais, a maioria desses registros teve apenas um dos campos    ausente. Observou-se que as vari&aacute;veis com maior freq&uuml;&ecirc;ncia    de 'NULO' no SIM foram o 'nome completo da m&atilde;e' e a 'unidade da federa&ccedil;&atilde;o    de nascimento': 13,2% e 14,4%, respectivamente. No caso da UF de nascimento,    os registros apresentavam apenas a classifica&ccedil;&atilde;o do indiv&iacute;duo    como 'brasileiro'.</font></p>     <p><font size="2" face="Verdana"><a name="t2"></a></font></p>     <p>&nbsp;</p>     <p align="center"><img src="/img/revistas/ess/v18n2/2a02t2.gif" border="0"></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana">Os identificadores 'nome completo do indiv&iacute;duo'    e 'nome completo da m&atilde;e' receberam tratamento similar, qual seja, foram    convertidos para letra mai&uacute;scula, tiveram retirados os acentos ortogr&aacute;ficos    e exclu&iacute;dos os espa&ccedil;os duplos, os espa&ccedil;os antes ou ap&oacute;s    o nome, al&eacute;m de quaisquer caracteres que n&atilde;o fossem letra (de    A a Z). Uma dificuldade encontrada com rela&ccedil;&atilde;o a esses identificadores    foi a utiliza&ccedil;&atilde;o de uma grande diversidade de valores para refletir    a aus&ecirc;ncia de informa&ccedil;&atilde;o, como 'N&Atilde;O IDENTIFICADO',    'INDIGENTE', 'N&Atilde;O INFORMADO'. Alguns desses valores apareciam com grande    freq&uuml;&ecirc;ncia nas duas bases de dados, o que representaria um fator    de vi&eacute;s para o resultado do relacionamento, uma vez que os pares em que    esses valores co-ocorressem receberiam escores referentes &agrave; concord&acirc;ncia    no nome. Efetuou-se, ent&atilde;o, uma busca exaustiva dos valores, que foram    substitu&iacute;dos por 'NULO'.</font></p>     <p><font size="2" face="Verdana">O passo seguinte foi a subdivis&atilde;o do nome    do indiv&iacute;duo e do nome da m&atilde;e, em primeiro nome, &uacute;ltimo    nome e nome do meio. O primeiro e o &uacute;ltimo nome representaram, respectivamente,    a primeira e a &uacute;ltima palavra do nome constante do registro; e o nome    do meio, tudo o que estivesse entre o primeiro e &uacute;ltimo nome, excluindo-se    os conectivos 'de', 'do', da', 'dos' e 'das'.</font></p>     <p><font size="2" face="Verdana">A data de nascimento foi codificada em n&uacute;meros    inteiros de oito casas decimais: as quatro primeiras para o ano, as duas seguintes    para o m&ecirc;s e as duas &uacute;ltimas para o dia (aaaammdd). Foram exclu&iacute;dos    os valores cujo ano estivesse fora do intervalo de 1850 a 2004, o m&ecirc;s    fora do intervalo 1 a 12, ou o dia fora do intervalo 1<sup>o</sup> a 31. O ano de nascimento    posterior a 2004 foi exclu&iacute;do: a base TRS compreende dados de pacientes    que iniciaram a TRS at&eacute; 31 de dezembro de 2004.</font></p>     <p><font size="2" face="Verdana"> A vari&aacute;vel 'sexo' foi codificada como    'M' ou 'F', excluindo-se quaisquer outros valores. Com rela&ccedil;&atilde;o    &agrave; UF de nascimento, para os brasileiros, manteve-se a sigla pr&oacute;pria    de cada unidade da federa&ccedil;&atilde;o; e para representar os estrangeiros,    atribuiu-se o valor 99, uma vez que estes eram representados por c&oacute;digos    num&eacute;ricos espec&iacute;ficos em cada base de dados.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana">Devido &agrave; grande varia&ccedil;&atilde;o    no c&oacute;digo IBGE do Munic&iacute;pio de resid&ecirc;ncia para um mesmo    indiv&iacute;duo, foram comparados somente os dois primeiros d&iacute;gitos    do c&oacute;digo, que identificam a UF de resid&ecirc;ncia. A tabela de Munic&iacute;pios    brasileiros disponibilizada pelo Datasus possui c&oacute;digos compreendidos    no intervalo 110000 a 530010.<sup>20</sup> Foram exclu&iacute;dos os c&oacute;digos n&atilde;o    contidos nesse intervalo.</font></p>     <p><font size="2" face="Verdana"> Finalmente, procedeu-se ao tratamento dos identificadores    'data do &oacute;bito' (SIM) e 'data de refer&ecirc;ncia da &uacute;ltima Apac'    na base TRS, para cada indiv&iacute;duo (Datref). Os campos foram codificados    como n&uacute;meros inteiros de seis casas decimais: as quatro iniciais para    o ano e as duas finais para o m&ecirc;s (aaaamm). Exclu&iacute;ram-se valores    para os quais o ano n&atilde;o era compreendido entre 2000 e 2004, ou aqueles    para os quais o registro do m&ecirc;s n&atilde;o estivesse representado entre    1 e 12.</font></p>     <p><font size="2" face="Verdana"> Foram inseridos dois campos adicionais em cada    base, exclusivamente para a aplica&ccedil;&atilde;o do algoritmo de codifica&ccedil;&atilde;o    fon&eacute;tica Soundex, no primeiro e &uacute;ltimo nome do indiv&iacute;duo.    O algoritmo Soundex retorna um c&oacute;digo que representa a interpreta&ccedil;&atilde;o    fon&eacute;tica para as palavras analisadas. Como o algoritmo foi desenvolvido    tomando por refer&ecirc;ncia o idioma ingl&ecirc;s, foram necess&aacute;rias    algumas adapta&ccedil;&otilde;es para nomes brasileiros que apresentam varia&ccedil;&otilde;es    de grafia na primeira s&iacute;laba, para um mesmo som, conforme descrito por    Coeli e Camargo Jr.<sup>3</sup></font></p>     <p><font size="2" face="Verdana"><b>Relacionamento determin&iacute;stico</b></font></p>     <p><font size="2" face="Verdana"> O relacionamento determin&iacute;stico tem por    objetivo diminuir o n&uacute;mero de pares a serem comparados nos segmentos    posteriores. Nesse caso, foram considerados como pertencentes ao mesmo indiv&iacute;duo    os pares de registros das duas bases cuja correspond&ecirc;ncia fosse exata,    ap&oacute;s padroniza&ccedil;&atilde;o, nos seguintes identificadores: primeiro    e &uacute;ltimo nome do indiv&iacute;duo; primeiro    e &uacute;ltimo nome da m&atilde;e; data de nascimento; sexo; e Munic&iacute;pio    de resid&ecirc;ncia.</font></p>     <p><font size="2" face="Verdana"><b>Etapa de blocagem</b></font></p>     <p><font size="2" face="Verdana"> A blocagem constituiu-se de dois segmentos:    no primeiro, utilizou-se o c&oacute;digo Soundex para o primeiro e &uacute;ltimo    nome do indiv&iacute;duo; e no segundo, a equival&ecirc;ncia exata da data de    nascimento, sexo e UF de resid&ecirc;ncia.</font></p>     <p><font size="2" face="Verdana"> Por conven&ccedil;&atilde;o, quando se utilizam    estrat&eacute;gias de blocagem seriadas, elas s&atilde;o aplicadas ordenadamente,    da mais restrita para a menos restrita, e os registros relacionados na etapa    anterior s&atilde;o exclu&iacute;dos da etapa subseq&uuml;ente.<sup>3</sup> Quando se exclui    um registro que tenha sido relacionado em uma primeira estrat&eacute;gia de    blocagem, entretanto, descarta-se a possibilidade de que ele venha a formar    outro par com um escore superior, na estrat&eacute;gia seguinte. Por exemplo:</font></p>     <p><font size="2" face="Verdana">Suponha-se que seja necess&aacute;rio relacionar    dois conjuntos de dados,</font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/ess/v18n2/2a02formula1.gif" border="0" ></font></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana">e tome-se, como pressuposto, que <b>a<sub>1</sub></b> seja    o par verdadeiro de <b>b<sub>1</sub></b>. Por&eacute;m, <b>a<sub>2</sub></b> &eacute; parecido com    <b>b<sub>1</sub></b> o bastante para terem a mesma chave na primeira estrat&eacute;gia    de blocagem e escore acima de um ponto do corte definido (assim, esquematicamente,    a regra define que <b>a<sub>2</sub>=b<sub>1</sub></b>). Por algum erro de preenchimento, <b>a<sub>1</sub></b>    e <b>b<sub>1</sub></b> (que, de fato, pertencem &agrave; mesma pessoa) t&ecirc;m chaves    de blocagem diferentes na primeira estrat&eacute;gia, embora fossem compar&aacute;veis    na segunda. Ao se excluir <b>a<sub>1</sub></b> ou <b>b<sub>1</sub></b> ap&oacute;s a primeira estrat&eacute;gia    de blocagem, elimina-se a possibilidade de que ambos sejam comparados na segunda    estrat&eacute;gia, cuja regra de blocagem &eacute; diferente (esquematicamente,    pela regra, <b>a1&#8800;b<sub>1</sub></b>). Para evitar problemas desse tipo, os registros comparados    na primeira estrat&eacute;gia de blocagem foram novamente comparados na segunda.    E os pares por esta gerados, unidos e classificados.</font></p>     <p><font size="2" face="Verdana">As estrat&eacute;gias de blocagem foram definidas    com o intuito de reduzir o quantitativo de pares a um n&uacute;mero vi&aacute;vel    para relacionamento, sem repetir qualquer campo na chave de blocagem dessas    etapas. Dessa forma, se um par n&atilde;o fosse comparado devido a erro de preenchimento    de um dos campos de uma etapa, ainda poderia ser comparado em outra.</font></p>     <p><font size="2" face="Verdana"><b>Etapa de relacionamento dos registros    (linkagem)</b></font></p>     <p><font size="2" face="Verdana">O nome do indiv&iacute;duo e o nome da m&atilde;e    (primeiro nome, nome do meio e &uacute;ltimo nome) foram comparados utilizando-se    o algoritmo de compara&ccedil;&atilde;o aproximada de Jaro-Winkler.<sup>21</sup> O algoritmo    retorna um valor entre zero e 1, em que 1 representa concord&acirc;ncia exata.    No presente estudo, adotou-se como ponto de corte o valor de 0,9 para 'primeiro    e &uacute;ltimo nomes' e o valor de 0,8 para 'nome do meio', procurando-se minimizar    erros na defini&ccedil;&atilde;o de pares corretos. A data do &oacute;bito e    a maior data de refer&ecirc;ncia no subsistema Apac/SIA/SUS foram consideradas    equivalentes quando a diferen&ccedil;a entre elas fosse menor ou igual a tr&ecirc;s    meses. As demais vari&aacute;veis foram comparadas de forma exata.</font></p>     <p><font size="2" face="Verdana">Quanto ao crit&eacute;rio adotado na defini&ccedil;&atilde;o    dos pesos de concord&acirc;ncia-discord&acirc;ncia para as vari&aacute;veis    'sexo', data de nascimento', 'nome do meio' e 'data do &oacute;bito', foram    utilizados os valores de <b>m</b> e <b>u</b> conforme a t&eacute;cnica usual.    Quando algum dos valores a serem comparados resultou nulo, o peso adotado foi    a m&eacute;dia aritm&eacute;tica dos pesos de concord&acirc;ncia e discord&acirc;ncia,    ou seja: o peso de concord&acirc;ncia foi <b>log<sub>2</sub>(m/u)</b>; o de discord&acirc;ncia,    <b>log<sub>2</sub>&#091;(1-m)/(1-u)&#093;</b>; e quando um dos valores apresentou-se 'NULO',</font></p>     <p>&nbsp;</p>     <p align="center"><font size="2" face="Verdana"><img src="/img/revistas/ess/v18n2/2a02formula2.gif" border="0" ></font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana">Para o primeiro e &uacute;ltimo nomes do indiv&iacute;duo    e da m&atilde;e, assim como o Estado de nascimento e resid&ecirc;ncia, foi calculado    o peso de concord&acirc;ncia com base na tabela de freq&uuml;&ecirc;ncia, pelo    fato de seus valores possu&iacute;rem uma distribui&ccedil;&atilde;o de freq&uuml;&ecirc;ncia    bastante desigual. O c&aacute;lculo dos pesos com base em tabelas de freq&uuml;&ecirc;ncia    seguiu estrat&eacute;gias distintas, para as vari&aacute;veis comparadas de    forma exata e para as vari&aacute;veis comparadas de forma aproximada. Lembre-se    de que as vari&aacute;veis comparadas de forma exata foram 'unidade da federa&ccedil;&atilde;o    de nascimento' e 'Estado de resid&ecirc;ncia'; e as comparadas de forma aproximada    (pelo algoritmo de Jaro-Winkler), 'primeiro e &uacute;ltimo nomes'    do indiv&iacute;duo e da m&atilde;e.</font></p>     <p><font size="2" face="Verdana">As tabelas de freq&uuml;&ecirc;ncia utilizadas    foram geradas a partir da pr&oacute;pria base de dados. Para os identificadores    comparados de forma exata, as tabelas de freq&uuml;&ecirc;ncia foram obtidas    da base TRS, uma vez que seriam consultadas somente em caso de concord&acirc;ncia    exata (valores id&ecirc;nticos nas duas bases). Para os identificadores comparados    de forma aproximada, havia a possibilidade de valores serem considerados equivalentes,    por&eacute;m n&atilde;o id&ecirc;nticos. Neste caso, os dois valores poderiam    ter freq&uuml;&ecirc;ncias distintas. Para esses campos, foi gerada uma tabela    de freq&uuml;&ecirc;ncia para cada uma das duas bases: quando ocorreu equival&ecirc;ncia    exata dos valores comparados, adotou-se o escore calculado pela tabela de freq&uuml;&ecirc;ncia    na base TRS. Quando esses valores n&atilde;o foram id&ecirc;nticos, embora semelhantes    o suficiente como para serem considerados equivalentes, atribuiu-se o peso de    concord&acirc;ncia do valor mais freq&uuml;ente em sua base de origem. Ou seja,    em caso de valores n&atilde;o id&ecirc;nticos, com a finalidade de escolher    qual seria selecionado na tabela de freq&uuml;&ecirc;ncia, optou-se por aquele    que incorresse em menor peso de concord&acirc;ncia. Esta conduta conservadora    considerou a possibilidade de que o valor menos freq&uuml;ente pudesse ser um    erro de grafia do mais freq&uuml;ente. Por exemplo: um determinado par possu&iacute;a,    ap&oacute;s padroniza&ccedil;&atilde;o, o primeiro nome na base TRS como 'CONCEIAO'    e, no SIM, como 'CONCEICAO'. O resultado da compara&ccedil;&atilde;o aproximada    de Jaro-Winkler para os dois nomes foi de 0,98. Portanto, os dois nomes foram    considerados equivalentes <b>mas n&atilde;o id&ecirc;nticos</b>. O peso de concord&acirc;ncia    calculado por meio da freq&uuml;&ecirc;ncia relativa da grafia 'CONCEIAO' na    base TRS foi de 12,75, enquanto o do nome 'CONCEICAO' no SIM foi de 5,43. Assim,    atribuiu-se o peso de concord&acirc;ncia de 5,43 para esse identificador.</font></p>     <p><font size="2" face="Verdana">A <a href="#t3">Tabela 3</a> descreve os pesos    de concord&acirc;ncia e de discord&acirc;ncia, e o peso atribu&iacute;do para    valores 'NULO', al&eacute;m dos valores de <b>m</b> e <b>u</b> utilizados para    cada identificador.</font></p>     <p><font size="2" face="Verdana"><a name="t3"></a></font></p>     <p>&nbsp;</p>     <p align="center"><img src="/img/revistas/ess/v18n2/2a02t3.gif" border="0"></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana"><b>Confiabilidade (mensurada para pares    corretos)</b></font></p>     <p><font size="2" face="Verdana"> Para avaliar a confiabilidade dos pares considerados    verdadeiros pelo relacionamento, eles foram inspecionados manualmente e classificados    como corretos ou incorretos por dois revisores &#8211; autores deste artigo    &#8211; que trabalharam de forma independente. A estat&iacute;stica Kappa foi    utilizada para avaliar a concord&acirc;ncia entre os dois revisores.<sup>22-24</sup></font></p>     <p><font size="2" face="Verdana"> Essa estat&iacute;stica n&atilde;o foi adotada    para avaliar a concord&acirc;ncia dos revisores com o relacionamento, uma vez    que o objetivo desta revis&atilde;o n&atilde;o &eacute; comparar o m&eacute;todo    de relacionamento autom&aacute;tico de registros com o procedimento manual e    sim obter uma estimativa da qualidade da informa&ccedil;&atilde;o de &oacute;bito    imputada pelo relacionamento probabil&iacute;stico. Deste modo, n&atilde;o foram    inspecionados pares considerados falsos pelo relacionamento autom&aacute;tico.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana"><b>Considera&ccedil;&otilde;es &eacute;ticas</b></font></p>     <p><font size="2" face="Verdana"> O projeto de pesquisa 'Avalia&ccedil;&atilde;o    Econ&ocirc;mico-Epidemiol&oacute;gica das Terapias Renais Substitutivas no Brasil'    foi aprovado pela Comiss&atilde;o de &Eacute;tica em Pesquisa da Universidade    Federal de Minas Gerais (UFMG) (Parecer ETIC n<sup>o</sup> 397/ 2004).</font></p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana"><B>Resultados</b></font></p>     <p><font size="2" face="Verdana">A Base Nacional de Dados em TRS possui 176.773    registros; e a base SIM, 4.636.197. O n&uacute;mero de pares gerados em cada    segmento de blocagem &eacute; apresentado na <a href="#t4">Tabela 4</a>. Nos    segmentos de blocagem 2 e 3, o tempo de processamento foi de 6 horas, aproximadamente.</font></p>     <p><font size="2" face="Verdana"><a name="t4"></a></font></p>     <p>&nbsp;</p>     <p align="center"><img src="/img/revistas/ess/v18n2/2a02t4.gif" border="0"></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana"> Para o relacionamento determin&iacute;stico,    gerou-se uma tabela com 14.818 pares, que representaram registros de &oacute;bitos    para os pacientes da base TRS. Para os segmentos 1 e 2 do relacionamento probabil&iacute;stico,    os pares encontrados foram avaliados como verdadeiros, falsos ou duvidosos,    uma vez que as tabelas geradas para esses pares continham o escore obtido da    compara&ccedil;&atilde;o entre todos os pares e atendiam, portanto, aos crit&eacute;rios    das respectivas blocagens.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana"> Para o tratamento dos pares gerados no relacionamento    probabil&iacute;stico, desenhou-se uma tabela com os pares de maior escore para    cada paciente da base TRS comparado nessas etapas, 'Tabela Maior Escore', ou    'Tabela ME', revelando-se um total de 235.167 pares formados. Em seguida, obteve-se    a distribui&ccedil;&atilde;o do logaritmo neperiano de freq&uuml;&ecirc;ncias    dos pares da Tabela ME, segundo o escore (<a href="#f1">Figura 1</a>). Adotou-se    a escala logar&iacute;tmica por sua capacidade de representar grandes varia&ccedil;&otilde;es    de freq&uuml;&ecirc;ncia em um espa&ccedil;o menor e sua utilidade no trabalho    com dados que cobrem uma extensa gama de valores. O logaritmo reduz a representa&ccedil;&atilde;o    a uma escala mais facilmente vis&iacute;vel &#8211; e manej&aacute;vel &#8211;,    o que permite estabelecer a rela&ccedil;&atilde;o percentual entre os valores.</font></p>     <p><font size="2" face="Verdana"><a name="f1"></a></font></p>     <p>&nbsp;</p>     <p align="center"><img src="/img/revistas/ess/v18n2/2a02f1.gif" border="0"></p>     <p>&nbsp;</p>     <p><font size="2" face="Verdana"> A distribui&ccedil;&atilde;o do logaritmo de    freq&uuml;&ecirc;ncias mostrou seu maior valor em torno do escore 15. N&atilde;o    se obteve a distribui&ccedil;&atilde;o te&oacute;rica bimodal; por&eacute;m,    a curva n&atilde;o se apresentou como uma normal &quot;bem comportada&quot;,    em forma de sino, revelando um plat&ocirc; que abrangeu pares do escore 30 ao    60, aproximadamente. Foram inspecionados, manualmente, pares com escore entre    25 (ponto a partir do qual a freq&uuml;&ecirc;ncia come&ccedil;ou a declinar    mais intensamente, indicando a possibilidade do in&iacute;cio de uma distribui&ccedil;&atilde;o    de pares corretos) e 40. A partir do valor de 29,9, a propor&ccedil;&atilde;o    de pares verdadeiros mostrou ser superior &agrave; de pares falsos. Optou-se,    ent&atilde;o, por adotar esse valor como ponto de corte, a partir do qual poder-se-ia    classificar um par como verdadeiro.</font></p>     <p><font size="2" face="Verdana"> Os pares cuja maior data de refer&ecirc;ncia    no subsistema Apac/SIA/SUS fosse igual ou superior a mar&ccedil;o de 2005 foram    considerados falsos, ainda que apresentassem escore acima do ponto de corte.    Esse crit&eacute;rio adicional revelou-se necess&aacute;rio, uma vez que foram    comparadas as declara&ccedil;&otilde;es de &oacute;bito at&eacute; dezembro    de 2004, n&atilde;o sendo razo&aacute;vel que um indiv&iacute;duo continuasse    a ter registros de Apac ap&oacute;s a data do eventual &oacute;bito. Manteve-se,    contudo, a mesma toler&acirc;ncia de tr&ecirc;s meses adotada na compara&ccedil;&atilde;o    da maior data de refer&ecirc;ncia (Apac/SIA/SUS) com a da data do &oacute;bito    (SIM). A inspe&ccedil;&atilde;o manual permitiu verificar que os pares com data    de refer&ecirc;ncia no subsistema Apac/SIA/SUS posterior a mar&ccedil;o de 2005,    n&atilde;o obstante o peso acima do ponto de corte, efetivamente eram falsos    pares.</font></p>     <p><font size="2" face="Verdana"> Estabelecidos os crit&eacute;rios para considerar    um par como verdadeiro, segundo o princ&iacute;pio de que cada paciente deveria    ter apenas uma declara&ccedil;&atilde;o de &oacute;bito, gerou-se uma nova tabela    a partir da Tabela ME: <b>Tabela ME_nova</b>. Desta tabela, constavam os indiv&iacute;duos    da base TRS presentes na Tabela ME que atendessem aos seguintes crit&eacute;rios:    (i) escore acima do ponto de corte, (ii) maior data de refer&ecirc;ncia no subsistema    Apac/SIA/SUS, desde que anterior a mar&ccedil;o de 2005, e (iii) com apenas    uma declara&ccedil;&atilde;o de &oacute;bito.</font></p>     <p><font size="2" face="Verdana"> Quanto aos pares encontrados mediante relacionamento    determin&iacute;stico, n&atilde;o foi necess&aacute;rio estabelecer ponto de    corte. Identificaram-se, por&eacute;m, 24 pacientes &#8211; distribu&iacute;dos    em 11 UF &#8211; com dois registros de &oacute;bito. Com o prop&oacute;sito    de selecionar uma &uacute;nica declara&ccedil;&atilde;o de &oacute;bito para    esses indiv&iacute;duos, comparou-se o campo &quot;nome do meio&quot;, o qual    ainda n&atilde;o havia sido utilizado: os indiv&iacute;duos que possu&iacute;ssem    apenas uma declara&ccedil;&atilde;o de &oacute;bito seriam, finalmente, inclu&iacute;dos    na Tabela ME_nova, consolidando-se os resultados obtidos. Cumprido esse procedimento,    a Tabela ME_nova passou a registrar 52.048 &oacute;bitos dos pacientes da Base    Nacional de Dados em TRS que atenderam aos crit&eacute;rios de pares verdadeiros.</font></p>     <p><font size="2" face="Verdana">Conclu&iacute;do o relacionamento, os pares considerados    v&aacute;lidos foram classificados em decis, a partir da distribui&ccedil;&atilde;o    de freq&uuml;&ecirc;ncias dos seus escores. De cada decil, retirou-se uma amostra    de trinta pares, verificados manualmente por dois revisores independentes, justamente    autores do presente estudo (OVQ e MLC), para serem classificados como verdadeiros    ou falsos. Os dois revisores obtiveram total concord&acirc;ncia na avalia&ccedil;&atilde;o    (Kappa=1,0). Foram encontrados cinco pares falsos no primeiro decil (16,7%)    e tr&ecirc;s no segundo (10,0%). Nos decis subseq&uuml;entes, todos os pares    foram classificados como verdadeiros. A propor&ccedil;&atilde;o de pares considerados    corretos por ambos os revisores foi de 97,3%, sobre um total de 300 pares inspecionados    manualmente.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana"> No relacionamento entre a Base Nacional de Dados    em TRS e a base nacional do SIM, identificaram-se, entre 2000 e 2004, 52.048    &oacute;bitos no SIM e 45.203 no subsistema Apac/SIA/SUS (campo Motcob); 34.158    &oacute;bitos encontravam-se em ambas as bases. Em m&eacute;dia, para o per&iacute;odo,    75,6% dos &oacute;bitos registrados na Apac foram confirmados no SIM: 34.158/45.203.    Nos anos 2000 e 2001, esse percentual foi de 54,5%, bastante inferior ao percentual    m&eacute;dio (87,9%) dos tr&ecirc;s anos seguintes. O percentual inferior nos    dois primeiros anos pode ser justificado pela falta de registros de identifica&ccedil;&atilde;o    no SIM (<a href="#t1">Tabela 1</a>). <a name="11"></a>N&atilde;o constituem    objeto desta an&aacute;lise as diferen&ccedil;as nas informa&ccedil;&otilde;es    relativas a &oacute;bito encontradas entre as duas bases de dados.</font></p>     <p>&nbsp;</p>     <p><font size="3" face="Verdana"><b>Discuss&atilde;o</b></font></p>     <p><font size="2" face="Verdana"> O relacionamento de registros vem assumindo    grande import&acirc;ncia no cen&aacute;rio da Sa&uacute;de P&uacute;blica. As    necessidades dos gestores e pesquisadores da &aacute;rea da Sa&uacute;de, associadas    &agrave; forma como foram estruturados os sistemas de informa&ccedil;&otilde;es    em sa&uacute;de no Brasil, determinam a necessidade de integrar dados desses    sistemas, independentemente de apresentarem identificador un&iacute;voco. Ainda    s&atilde;o raros os estudos envolvendo o subsistema Apac/SIA/SUS,<sup>7</sup> de modo que    integrar os dados desse subsistema e os do sistema SIM foi de grande import&acirc;ncia    e utilidade para os autores deste trabalho. Al&eacute;m de possibilitar maior    conhecimento da estrutura, potencialidades e defici&ecirc;ncias do subsistema    Apac/SIA/SUS, o estudo permitiu confirmar a informa&ccedil;&atilde;o de &oacute;bito,    quando presente nesse subsistema, pelos dados constantes no sistema SIM. Para    estudos futuros, a tarefa de integra&ccedil;&atilde;o de informa&ccedil;&otilde;es    possibilitar&aacute; o aproveitamento das informa&ccedil;&otilde;es conjugadas    para esses dois bancos de dados, referentes &agrave; data e causa do &oacute;bito.</font></p>     <p><font size="2" face="Verdana">A limpeza e padroniza&ccedil;&atilde;o dos dados    demonstraram ser esta etapa a mais importante e trabalhosa do processo, dada    a grande freq&uuml;&ecirc;ncia de dados inconsistentes, incompletos ou com erros    de grafia. Os bancos de dados administrativos n&atilde;o foram projetados especificamente    para fins de pesquisa e suas informa&ccedil;&otilde;es n&atilde;o se caracterizam    pela alta qualidade exigida para essa finalidade.<sup>1,2,4,7,24</sup> O Sistema    de Informa&ccedil;&otilde;es sobre Mortalidade, particularmente, possu&iacute;a    25,3% dos registros com alguma informa&ccedil;&atilde;o inconsistente ou ausente.    Essa particularidade do SIM obriga que o <i>software</i> de relacionamento a    ser utilizado permita a identifica&ccedil;&atilde;o e tratamento, de forma diferenciada,    dos valores <i>missing</i> ou ausentes, uma vez que, para efeito de relacionamento    de registros, n&atilde;o parece razo&aacute;vel que a concord&acirc;ncia &#8211;    ou discord&acirc;ncia &#8211; entre valores dessa natureza corrobore a declara&ccedil;&atilde;o    de um par como verdadeiro ou falso.<sup>25,26</sup></font></p>     <p><font size="2" face="Verdana"> Ao longo de cinco anos, este estudo de abrang&ecirc;ncia    nacional compreendeu o relacionamento de 176.773 registros da Base Nacional    de Dados em TRS e 4.636.197 registros do SIM. O relacionamento de bases t&atilde;o    grandes, mediante a t&eacute;cnica probabil&iacute;stica, &eacute; bastante    desafiador e raramente encontrado na literatura. Sob esse aspecto, a utiliza&ccedil;&atilde;o    do <i>software</i> MySQL mostrou ser uma alternativa robusta, ademais com a    versatilidade necess&aacute;ria para o tratamento dos valores ausentes ou inv&aacute;lidos    nas bases. Entre outras vantagens, o MySQL possui c&oacute;digo aberto e funciona    em in&uacute;meros sistemas operacionais, tais como Windows e Linux, entre outros.    &Eacute; port&aacute;vel, ou seja, funciona na maioria dos computadores, com    excelente desempenho e estabilidade. &Eacute; importante acrescentar, no entanto,    que esse <i>software</i> n&atilde;o foi criado especificamente para o relacionamento    de registros. Trata-se de um instrumento gerenciador de banco de dados e seu    uso requer a codifica&ccedil;&atilde;o dos procedimentos desejados em linguagem    SQL.<sup>19</sup> A utiliza&ccedil;&atilde;o desse recurso tem precedentes na    literatura: Drumond, Fran&ccedil;a e Machado, ao utilizarem uma rotina em linguagem    SQL para o relacionamento de registros do Sistema de Informa&ccedil;&otilde;es    Hospitalares &#8211; SIH/SUS &#8211; com o Sistema de Informa&ccedil;&otilde;es    sobre Nascidos Vivos &#8211; Sinasc &#8211;, obtiveram bons resultados.<sup>27</sup></font></p>     <p><font size="2" face="Verdana"> Outros <i>softwares</i> de relacionamento de    registros apresentam a vantagem de n&atilde;o exigir codifica&ccedil;&atilde;o    de rotinas para seu uso. Entre eles, estes autores destacam tr&ecirc;s, de distribui&ccedil;&atilde;o    gratuita: o Reclink, <i>software</i> desenvolvido por pesquisadores brasileiros;<sup>28</sup>    o Febrl, criado pela Universidade Nacional Australiana;<sup>25</sup> e o Link    Plus, desenvolvido e adotado pelos Centers for Disease Control and Prevention    (CDC) de Atlanta-GA, Estados Unidos da Am&eacute;rica.<sup>26</sup> Em etapas    preliminares deste trabalho, foram realizados testes com o Reclink (vers&atilde;o    2.1.7.200), haja vista esse aplicativo ser bastante utilizado por pesquisadores    no Brasil; e com o Febrl (vers&atilde;o 0.3), por apresentar grande variedade    de recursos e ser de c&oacute;digo aberto. Optou-se, contudo, pela n&atilde;o-utiliza&ccedil;&atilde;o    de ambos: no caso do Reclink, por n&atilde;o implementar alguns dos recursos    utilizados neste trabalho, tais como c&aacute;lculo do peso de concord&acirc;ncia    por tabela de freq&uuml;&ecirc;ncia e tratamento diferenciado para valores <i>missing</i>;    e do Febrl, por n&atilde;o ter apresentado o desempenho necess&aacute;rio para    o relacionamento de registros em n&uacute;mero t&atilde;o grande quanto o utilizado    por este trabalho, principalmente devido ao excessivo consumo de mem&oacute;ria.</font></p>     <p><font size="2" face="Verdana">Alguns resultados preliminares deste relacionamento    encorajam estudos futuros. O SIM confirmou &oacute;bitos notificados na base    Apac/SIA/SUS, para os anos de 2002 a 2004, em propor&ccedil;&atilde;o elevada    (87,9%). Como o SIM tem cobertura estimada de 82% dos &oacute;bitos ocorridos    no pa&iacute;s, com varia&ccedil;&otilde;es regionais,<sup>12</sup> o fato de n&atilde;o    se ter confirmado 100% dos &oacute;bitos &eacute; um resultado coerente e demonstra    que a t&eacute;cnica de relacionamento aplicada foi satisfat&oacute;ria. Ademais,    entre os pares considerados verdadeiros pelo relacionamento, 97,3% foram ratificados    pela inspe&ccedil;&atilde;o manual, propor&ccedil;&atilde;o esta bastante satisfat&oacute;ria.</font></p>     <p><font size="2" face="Verdana">Apesar das dificuldades encontradas para a consecu&ccedil;&atilde;o    deste trabalho, os autores deste estudo conseguiram relacionar, satisfatoriamente,    bases administrativas e epidemiol&oacute;gicas do SUS. Sua utiliza&ccedil;&atilde;o    abre caminho para novos estudos epidemiol&oacute;gicos, econ&ocirc;micos e de    avalia&ccedil;&atilde;o dos servi&ccedil;os de sa&uacute;de, de grande import&acirc;ncia    para a formula&ccedil;&atilde;o de pol&iacute;ticas espec&iacute;ficas e melhoria    da qualidade da aten&ccedil;&atilde;o prestada aos pacientes submetidos &agrave;s    terapias de substitui&ccedil;&atilde;o renal no pa&iacute;s.</font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><font size="3" face="Verdana"><b>Refer&ecirc;ncias</b></font></p>     <!-- ref --><p><font size="2" face="Verdana"> 1. Carvalho DM. Grandes sistemas nacionais de    informa&ccedil;&atilde;o em sa&uacute;de: revis&atilde;o e discuss&atilde;o    da situa&ccedil;&atilde;o atual. Informe Epidemiol&oacute;gico do SUS 1997;5:7-46.</font><!-- ref --><p><font size="2" face="Verdana"> 2. Pinheiro RS, Camargo Jr KR, Coeli CM. Relacionamento    de bases de dados em sa&uacute;de. Cadernos de Sa&uacute;de Coletiva 2006;14:195-196.</font><!-- ref --><p><font size="2" face="Verdana"> 3. Coeli CM, Camargo Jr KR. Avalia&ccedil;&atilde;o    de diferentes estrat&eacute;gias de blocagem no relacionamento probabil&iacute;stico    de registros. Revista Brasileira de Epidemiologia 2002;5:185-196.</font><!-- ref --><p><font size="2" face="Verdana"> 4. Mendes ACG, Silva Junior JB, Medeiros KR,    Lyra TM, Melo Filho DA, S&aacute; DA. Avalia&ccedil;&atilde;o do Sistema de    Informa&ccedil;&otilde;es Hospitalares &#8211; SIH/SUS como fonte complementar    na vigil&acirc;ncia e monitoramento de doen&ccedil;as de notifica&ccedil;&atilde;o    compuls&oacute;ria. Informe Epidemiol&oacute;gico do SUS 2000;9:67-86.</font><!-- ref --><p><font size="2" face="Verdana">5. Teixeira CLS, Block KV, Klein CH, Coeli CM.    M&eacute;todo de relacionamento de bancos de dados do Sistema de Informa&ccedil;&atilde;o    sobre Mortalidade (SIM) e das autoriza&ccedil;&otilde;es de interna&ccedil;&atilde;o    hospitalar (BDAIH) no Sistema &Uacute;nico de Sa&uacute;de (SUS), na investiga&ccedil;&atilde;o    de &oacute;bitos de causa mal-definida no Estado do Rio de Janeiro, Brasil,    1998. Epidemiologia e Servi&ccedil;os de Sa&uacute;de 2006;5:47-57.</font><!-- ref --><p><font size="2" face="Verdana">6. Veras CMT, Martins MAS. Confiabilidade dos    dados nos formul&aacute;rios de Autoriza&ccedil;&atilde;o de Interna&ccedil;&atilde;o    Hospitalar (AIH) &#8211; Rio de Janeiro, Brasil. Cadernos de Sa&uacute;de P&uacute;blica    1994;10:339-355.</font><!-- ref --><p><font size="2" face="Verdana"> 7. Silva JPL, Travassos C, Vasconcellos MM,    Campos LM. Revis&atilde;o sistem&aacute;tica sobre encadeamento ou linkage de    bases de dados secund&aacute;rios para uso em pesquisa em sa&uacute;de no Brasil.    Cadernos de Sa&uacute;de Coletiva 2006;14:197-224.</font><!-- ref --><p><font size="2" face="Verdana">8. Scheuren F. Linking health records: human    rights concerns. Proceedings of an International Workshop and Exposition: Record    Linkage Techniques; 1997. Washington (DC): National Academy Press; 1999.</font><!-- ref --><p><font size="2" face="Verdana"> 9. Minist&eacute;rio da Sa&uacute;de. Pol&iacute;tica    Nacional ao Portador de Doen&ccedil;a Renal. Bras&iacute;lia: MS; 2004.</font><!-- ref --><p><font size="2" face="Verdana"> 10. Cherchiglia ML, Guerra J&uacute;nior AA,    Andrade EIG, Machado CJ, Ac&uacute;rcio FA, Meira J&uacute;nior W, et al. A    constru&ccedil;&atilde;o da base de dados nacional em Terapia Renal Substitutiva    (TRS) centrada no indiv&iacute;duo: aplica&ccedil;&atilde;o do m&eacute;todo    de linkage determin&iacute;stico-probabil&iacute;stico. Revista Brasileira de    Estudos de Popula&ccedil;&atilde;o 2007; 24:163-167.</font><!-- ref --><p><font size="2" face="Verdana"> 11. Minist&eacute;rio da Sa&uacute;de. Sistema    de Informa&ccedil;&otilde;es Ambulatoriais do SUS - SIA/SUS: manual de orienta&ccedil;&otilde;es    t&eacute;cnicas. Bras&iacute;lia: MS; 2006.</font><!-- ref --><p><font size="2" face="Verdana"> 12. Gomes Jr SCS, Almeida RT. Compara&ccedil;&atilde;o    do registro da produ&ccedil;&atilde;o ambulatorial em oncologia no Sistema &Uacute;nico    de Sa&uacute;de. Cadernos de Sa&uacute;de P&uacute;blica 2006;22:141-150.</font><!-- ref --><p><font size="2" face="Verdana"> 13. Laurenti R, Mello Jorge MHP, Gotlieb SLD.    A confiabilidade dos dados de mortalidade e morbidade por doen&ccedil;as cr&ocirc;nicas    n&atilde;o-transmiss&iacute;veis. Ci&ecirc;ncia &amp; Sa&uacute;de Coletiva    2004;9:909-920.</font><!-- ref --><p><font size="2" face="Verdana"> 14. Fellegi IP, Sunter A. A theory of record    linkage. Journal of the American Statistical Association 1969;64:1183-1210.</font><!-- ref --><p><font size="2" face="Verdana">15. Newcombe HB, Kennedy JM, Axford SJ, James    AP. Automatic linkage of vital records. Science 1959;130:954-959.</font><!-- ref --><p><font size="2" face="Verdana"> 16. Conn L, Bishop G. Exploring methods for    creating a longitudinal census dataset. Australian Bureau of Statistics; 2005.</font><!-- ref --><p><font size="2" face="Verdana"> 17. Camargo Jr KR, Coeli CM. Reclink: aplicativo    para o relacionamento de bases de dados, implementando o m&eacute;todo probabilistic    record linkage. Cadernos de Sa&uacute;de P&uacute;blica 2000;16:439-447.</font><!-- ref --><p><font size="2" face="Verdana"> 18. Herzog TN, Sheuren FJ, Winkler WE. Data    quality and record linkage techiniques. Springer; 2007.</font><!-- ref --><p><font size="2" face="Verdana"> 19. MySQL. The world's most popular open source    database &#091;database on the Internet&#093;. Sweden: MySQL. c2995. &#091;cited  2008    Jul. 14&#093;. Available from: <a href="http://www.mysql.com." target="_blank">http://www.mysql.com</a>.</font><!-- ref --><p><font size="2" face="Verdana"> 20. Minist&eacute;rio da Sa&uacute;de. Datasus.    Bem vindo ao reposit&oacute;rio de tabelas corporativas &#091;dados na Internet&#093;.    Bras&iacute;lia: MS &#091;acesso 14 jul. 2008&#093;. Dispon&iacute;vel em:<a href="http://repositorio.datasus.gov.br." target="_blank">    http://repositorio.datasus.gov.br.</a></font><!-- ref --><p><font size="2" face="Verdana"> 21. Winkler WE. String comparator metrics and    enhanced decision rules in the Fellegi-Sunter model of record linkage. In: Proceedings    of the Section on Survey Research Methods. American Statistical Association;    1990. p. 354-359.</font><!-- ref --><p><font size="2" face="Verdana"> 22. Cohen J. A coefficient of agreement for    nominal scales. Educational and Psychological Measurement 1960;20:37-46.</font><!-- ref --><p><font size="2" face="Verdana">23. Escosteguy CC, Portela MC, Medronho RA, Vasconcellos    MTL. O Sistema de Informa&ccedil;&otilde;es Hospitalares e a assist&ecirc;ncia    ao infarto agudo do mioc&aacute;rdio. Revista de Sa&uacute;de P&uacute;blica    2002; 36:491-499.</font><!-- ref --><p><font size="2" face="Verdana"> 24. Mathias TAF, Soboll MLMS. Confiabilidade    de diagn&oacute;sticos nos formul&aacute;rios de Autoriza&ccedil;&atilde;o de    Interna&ccedil;&atilde;o Hospitalar. Revista de Sa&uacute;de P&uacute;blica    1998;32:526-532.</font><!-- ref --><p><font size="2" face="Verdana"> 25. Christen P. Febrl - A Freely Available Record    Linkage System with a Graphical User Interface. Second Australasian Workshop    on Health Data and Knowledge Management (HDKM 2008); 2008; Wollongong, NSW,    Australia. Australian Computer Science Communications; 2008.</font><!-- ref --><p><font size="2" face="Verdana"> 26. Centers for Disease Control and Prevention.    National Program of Cancer Registries. Link Plus &#091;homepage on the Internet&#093;.    Atlanta: CDC &#091;cited  2008 Jul. 14&#093;. Available from: <a href="http://www.cdc.gov/cancer/npcr/tools/registryplus/lp.htm." target="_blank">http://www.cdc.gov/cancer/npcr/tools/registryplus/lp.htm.</a></font><!-- ref --><p><font size="2" face="Verdana"> 27. Drumond EdF, Fran&ccedil;a EB, Machado CJ.    SIH-SUS e Sinasc: utiliza&ccedil;&atilde;o do m&eacute;todo probabil&iacute;stico    para relacionamento de dados. Cadernos de Sa&uacute;de Coletiva 2006;14:251-264.</font><!-- ref --><p><font size="2" face="Verdana"> 28. Reclink. Relacionamento probabil&iacute;stico    de registros &#091;dados na Internet&#093; &#091;acesso 14 jul. 2008&#093;. Dispon&iacute;vel em:    <a href="http://paginas.terra.com.br/educacao/kencamargo/RecLink.html" target="_blank">http://paginas.terra.com.br/educacao/kencamargo/RecLink.html</a></font><p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="2" face="Verdana"><b><a name="endereco"></a><a href="#topo"><img src="/img/revistas/ess/v18n2/seta.gif" border="0"></a>Endere&ccedil;o    para correspond&ecirc;ncia:</b>    <br>   Av. Professor Alfredo Balena, 190,    <br>   7<sup>o</sup> Andar, Sala 706, Santa Efig&ecirc;nia,    <br>   Belo Horizonte-MG, Brasil.    <br>   CEP: 30130-100    <br>   <i> E-mail</i>:<a href="mailto:odilonvanni@gmail.com">odilonvanni@gmail.com</a></font></p>     <p><font size="2" face="Verdana">Recebido em 18/03/2008    <br>   Aprovado em 12/09/2008</font></p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><font size="3" face="Verdana"><b><a name="as" id="as"></a><a href="#topo"><font size="2"><sup>*</sup></font></a></b></font><font size="2" face="Verdana">Projeto    financiado com recursos do Fundo Nacional de Sa&uacute;de do Minist&eacute;rio    da Sa&uacute;de &#8211; FNS/MS &#8211;, UK Department for International Development,    Organiza&ccedil;&atilde;o das Na&ccedil;&otilde;es Unidas para a Educa&ccedil;&atilde;o,    a Ci&ecirc;ncia e a Cultura &#8211; UNESCO &#8211; e Conselho Nacional de Desenvolvimento    Cient&iacute;fico e Tecnol&oacute;gico do Minist&eacute;rio da Ci&ecirc;ncia    e Tecnologia &#8211; CNPq/MCT.</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Carvalho]]></surname>
<given-names><![CDATA[DM]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Grandes sistemas nacionais de informação em saúde: revisão e discussão da situação atual]]></article-title>
<source><![CDATA[Informe Epidemiológico do SUS]]></source>
<year>1997</year>
<volume>5</volume>
<page-range>7-46</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pinheiro]]></surname>
<given-names><![CDATA[RS]]></given-names>
</name>
<name>
<surname><![CDATA[Camargo Jr]]></surname>
<given-names><![CDATA[KR]]></given-names>
</name>
<name>
<surname><![CDATA[Coeli]]></surname>
<given-names><![CDATA[CM]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Relacionamento de bases de dados em saúde]]></article-title>
<source><![CDATA[Cadernos de Saúde Coletiva]]></source>
<year>2006</year>
<volume>14</volume>
<page-range>195-196</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Coeli]]></surname>
<given-names><![CDATA[CM]]></given-names>
</name>
<name>
<surname><![CDATA[Camargo Jr]]></surname>
<given-names><![CDATA[KR]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros]]></article-title>
<source><![CDATA[Revista Brasileira de Epidemiologia]]></source>
<year>2002</year>
<volume>5</volume>
<page-range>185-196</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mendes]]></surname>
<given-names><![CDATA[ACG]]></given-names>
</name>
<name>
<surname><![CDATA[Silva Junior]]></surname>
<given-names><![CDATA[JB]]></given-names>
</name>
<name>
<surname><![CDATA[Medeiros]]></surname>
<given-names><![CDATA[KR]]></given-names>
</name>
<name>
<surname><![CDATA[Lyra]]></surname>
<given-names><![CDATA[TM]]></given-names>
</name>
<name>
<surname><![CDATA[Melo Filho]]></surname>
<given-names><![CDATA[DA]]></given-names>
</name>
<name>
<surname><![CDATA[Sá]]></surname>
<given-names><![CDATA[DA]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Avaliação do Sistema de Informações Hospitalares: SIH/SUS como fonte complementar na vigilância e monitoramento de doenças de notificação compulsória]]></article-title>
<source><![CDATA[Informe Epidemiológico do SUS]]></source>
<year>2000</year>
<volume>9</volume>
<page-range>67-86</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Teixeira]]></surname>
<given-names><![CDATA[CLS]]></given-names>
</name>
<name>
<surname><![CDATA[Block]]></surname>
<given-names><![CDATA[KV]]></given-names>
</name>
<name>
<surname><![CDATA[Klein]]></surname>
<given-names><![CDATA[CH]]></given-names>
</name>
<name>
<surname><![CDATA[Coeli]]></surname>
<given-names><![CDATA[CM]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Método de relacionamento de bancos de dados do Sistema de Informação sobre Mortalidade (SIM) e das autorizações de internação hospitalar (BDAIH) no Sistema Único de Saúde (SUS): na investigação de óbitos de causa mal-definida no Estado do Rio de Janeiro, Brasil, 1998]]></article-title>
<source><![CDATA[Epidemiologia e Serviços de Saúde]]></source>
<year>2006</year>
<volume>5</volume>
<page-range>47-57</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Veras]]></surname>
<given-names><![CDATA[CMT]]></given-names>
</name>
<name>
<surname><![CDATA[Martins]]></surname>
<given-names><![CDATA[MAS]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Confiabilidade dos dados nos formulários de Autorização de Internação Hospitalar (AIH) - Rio de Janeiro, Brasil]]></article-title>
<source><![CDATA[Cadernos de Saúde Pública]]></source>
<year>1994</year>
<volume>10</volume>
<page-range>339-355</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Silva]]></surname>
<given-names><![CDATA[JPL]]></given-names>
</name>
<name>
<surname><![CDATA[Travassos]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Vasconcellos]]></surname>
<given-names><![CDATA[MM]]></given-names>
</name>
<name>
<surname><![CDATA[Campos]]></surname>
<given-names><![CDATA[LM]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Revisão sistemática sobre encadeamento ou linkage de bases de dados secundários para uso em pesquisa em saúde no Brasil]]></article-title>
<source><![CDATA[Cadernos de Saúde Coletiva]]></source>
<year>2006</year>
<volume>14</volume>
<page-range>197-224</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Scheuren]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Linking health records: human rights concerns: Proceedings of an International Workshop and Exposition: Record Linkage Techniques; 1997]]></source>
<year>1999</year>
<publisher-loc><![CDATA[Washington (DC) ]]></publisher-loc>
<publisher-name><![CDATA[National Academy Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<collab>Ministério da Saúde</collab>
<source><![CDATA[Política Nacional ao Portador de Doença Renal]]></source>
<year>2004</year>
<publisher-loc><![CDATA[Brasília ]]></publisher-loc>
<publisher-name><![CDATA[MS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cherchiglia]]></surname>
<given-names><![CDATA[ML]]></given-names>
</name>
<name>
<surname><![CDATA[Guerra Júnior]]></surname>
<given-names><![CDATA[AA]]></given-names>
</name>
<name>
<surname><![CDATA[Andrade]]></surname>
<given-names><![CDATA[EIG]]></given-names>
</name>
<name>
<surname><![CDATA[Machado]]></surname>
<given-names><![CDATA[CJ]]></given-names>
</name>
<name>
<surname><![CDATA[Acúrcio]]></surname>
<given-names><![CDATA[FA]]></given-names>
</name>
<name>
<surname><![CDATA[Meira Júnior]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[A construção da base de dados nacional em Terapia Renal Substitutiva (TRS) centrada no indivíduo: aplicação do método de linkage determinístico-probabilístico]]></article-title>
<source><![CDATA[Revista Brasileira de Estudos de População]]></source>
<year>2007</year>
<volume>24</volume>
<page-range>163-167</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<collab>Ministério da Saúde</collab>
<source><![CDATA[Sistema de Informações Ambulatoriais do SUS - SIA/SUS: manual de orientações técnicas]]></source>
<year>2006</year>
<publisher-loc><![CDATA[Brasília ]]></publisher-loc>
<publisher-name><![CDATA[MS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gomes Jr]]></surname>
<given-names><![CDATA[SCS]]></given-names>
</name>
<name>
<surname><![CDATA[Almeida]]></surname>
<given-names><![CDATA[RT]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Comparação do registro da produção ambulatorial em oncologia no Sistema Único de Saúde]]></article-title>
<source><![CDATA[Cadernos de Saúde Pública]]></source>
<year>2006</year>
<volume>22</volume>
<page-range>141-150</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Laurenti]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Mello Jorge]]></surname>
<given-names><![CDATA[MHP]]></given-names>
</name>
<name>
<surname><![CDATA[Gotlieb]]></surname>
<given-names><![CDATA[SLD]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[A confiabilidade dos dados de mortalidade e morbidade por doenças crônicas não-transmissíveis]]></article-title>
<source><![CDATA[Ciência & Saúde Coletiva]]></source>
<year>2004</year>
<volume>9</volume>
<page-range>909-920</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fellegi]]></surname>
<given-names><![CDATA[IP]]></given-names>
</name>
<name>
<surname><![CDATA[Sunter]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A theory of record linkage]]></article-title>
<source><![CDATA[Journal of the American Statistical Association]]></source>
<year>1969</year>
<volume>64</volume>
<page-range>1183-1210</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Newcombe]]></surname>
<given-names><![CDATA[HB]]></given-names>
</name>
<name>
<surname><![CDATA[Kennedy]]></surname>
<given-names><![CDATA[JM]]></given-names>
</name>
<name>
<surname><![CDATA[Axford]]></surname>
<given-names><![CDATA[SJ]]></given-names>
</name>
<name>
<surname><![CDATA[James]]></surname>
<given-names><![CDATA[AP]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Automatic linkage of vital records]]></article-title>
<source><![CDATA[Science]]></source>
<year>1959</year>
<volume>130</volume>
<page-range>954-959</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Conn]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Bishop]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Exploring methods for creating a longitudinal census dataset]]></source>
<year>2005</year>
<publisher-name><![CDATA[Australian Bureau of Statistics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Camargo Jr]]></surname>
<given-names><![CDATA[KR]]></given-names>
</name>
<name>
<surname><![CDATA[Coeli]]></surname>
<given-names><![CDATA[CM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage]]></article-title>
<source><![CDATA[Cadernos de Saúde Pública]]></source>
<year>2000</year>
<volume>16</volume>
<page-range>439-447</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Herzog]]></surname>
<given-names><![CDATA[TN]]></given-names>
</name>
<name>
<surname><![CDATA[Sheuren]]></surname>
<given-names><![CDATA[FJ]]></given-names>
</name>
<name>
<surname><![CDATA[Winkler]]></surname>
<given-names><![CDATA[WE]]></given-names>
</name>
</person-group>
<source><![CDATA[Data quality and record linkage techiniques]]></source>
<year>2007</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="book">
<collab>MySQL</collab>
<source><![CDATA[The world's most popular open source database]]></source>
<year>cite</year>
<month>d </month>
<day>20</day>
<publisher-loc><![CDATA[Sweden ]]></publisher-loc>
<publisher-name><![CDATA[MySQL. c2995]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="book">
<collab>Ministério da Saúde^dDatasus</collab>
<source><![CDATA[Bem vindo ao repositório de tabelas corporativas]]></source>
<year></year>
<publisher-loc><![CDATA[Brasília ]]></publisher-loc>
<publisher-name><![CDATA[MS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Winkler]]></surname>
<given-names><![CDATA[WE]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage]]></article-title>
<source><![CDATA[Proceedings of the Section on Survey Research Methods]]></source>
<year>1990</year>
<page-range>354-359</page-range><publisher-name><![CDATA[American Statistical Association]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cohen]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A coefficient of agreement for nominal scales]]></article-title>
<source><![CDATA[Educational and Psychological Measurement]]></source>
<year>1960</year>
<volume>20</volume>
<page-range>37-46</page-range></nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Escosteguy]]></surname>
<given-names><![CDATA[CC]]></given-names>
</name>
<name>
<surname><![CDATA[Portela]]></surname>
<given-names><![CDATA[MC]]></given-names>
</name>
<name>
<surname><![CDATA[Medronho]]></surname>
<given-names><![CDATA[RA]]></given-names>
</name>
<name>
<surname><![CDATA[Vasconcellos]]></surname>
<given-names><![CDATA[MTL]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[O Sistema de Informações Hospitalares e a assistência ao infarto agudo do miocárdio]]></article-title>
<source><![CDATA[Revista de Saúde Pública]]></source>
<year>2002</year>
<volume>36</volume>
<page-range>491-499</page-range></nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mathias]]></surname>
<given-names><![CDATA[TAF]]></given-names>
</name>
<name>
<surname><![CDATA[Soboll]]></surname>
<given-names><![CDATA[MLMS]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[Confiabilidade de diagnósticos nos formulários de Autorização de Internação Hospitalar]]></article-title>
<source><![CDATA[Revista de Saúde Pública]]></source>
<year>1998</year>
<volume>32</volume>
<page-range>526-532</page-range></nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Christen]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Febrl - A Freely Available Record Linkage System with a Graphical User Interface: Second Australasian Workshop on Health Data and Knowledge Management (HDKM 2008); 2008; Wollongong, NSW]]></source>
<year>2008</year>
<publisher-loc><![CDATA[Australia ]]></publisher-loc>
<publisher-name><![CDATA[Australian Computer Science Communications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="">
<collab>Centers for Disease Control and Prevention</collab>
<source><![CDATA[National Program of Cancer Registries: Link Plus]]></source>
<year>2008</year>
<month> J</month>
<day>ul</day>
<publisher-loc><![CDATA[Atlanta ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Drumond]]></surname>
<given-names><![CDATA[EdF]]></given-names>
</name>
<name>
<surname><![CDATA[França]]></surname>
<given-names><![CDATA[EB]]></given-names>
</name>
<name>
<surname><![CDATA[Machado]]></surname>
<given-names><![CDATA[CJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="pt"><![CDATA[SIH-SUS e Sinasc: utilização do método probabilístico para relacionamento de dados]]></article-title>
<source><![CDATA[Cadernos de Saúde Coletiva]]></source>
<year>2006</year>
<volume>14</volume>
<page-range>251-264</page-range></nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="">
<collab>Reclink</collab>
<source><![CDATA[Relacionamento probabilístico de registros]]></source>
<year>14 j</year>
<month>ul</month>
<day>. </day>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
