Introdução
No Brasil, existem Sistemas de Informações em Saúde (SIS) consolidados, a exemplo do Sistema de Informações sobre Mortalidade (SIM) e do Sistema de Informação de Agravos de Notificação (Sinan),1 que disponibilizam dados para análises de situação de saúde. Contudo, o georreferenciamento desses dados em cidades brasileiras ainda é um desafio. Entre os problemas mais comuns destacam-se a qualidade dos dados, a falta de sistemas de informações geográficas (SIG) municipais estruturados, a falta de bases cartográficas digitais e cadastros oficiais de endereços, além da complexidade da infraestrutura urbana, principalmente em áreas carentes como ocupações irregulares e favelas, onde é comum a não padronização dos endereços.2
Os SIG são usados para descrever, analisar e prever padrões espaciais, dispondo de diversas aplicações em epidemiologia, como o mapeamento de doenças, a investigação de surtos e análises espaciais.3 Seu uso depende, sobretudo, da disponibilidade de dados georreferenciados. O georreferenciamento, por sua vez, é o processo pelo qual informações textuais descritivas de uma localidade, como o endereço relacionado a um evento de saúde, são convertidas em representações geográficas válidas. Ele pode ser realizado por meio da associação a um par de coordenadas geográficas ou a unidades espaciais, como setores censitários, bairros, municípios, entre outras.4,5
As ferramentas de georreferenciamento, concomitantemente aos avanços da informática, têm apresentado melhorias em termos de qualidade, acessibilidade e redução de custos. A escolha do método depende da disponibilidade de informações e bases cartográficas, da precisão desejada, do volume de dados e dos recursos disponíveis.5,6
O objetivo deste trabalho foi descrever os resultados da aplicação de um procedimento de baixo custo, baseado em software livre, para o georreferenciamento de dados do Sistema de Informações sobre Mortalidade - SIM - no município do Rio de Janeiro, Brasil
Métodos
Estudo descritivo de um método de georreferenciamento de dados sobre óbitos registrados no SIM, ocorridos no município do Rio de Janeiro entre 2010 e 2012.
Em 2010, a população do município era de 6.320.446 habitantes, dos quais 2,62% vivendo em extrema pobreza. No mesmo ano, o índice de desenvolvimento humano municipal era de 0,799. O produto interno bruto per capita era de 46.461,82 reais em 2014.7 A cobertura da Atenção Básica no município era de 52% em fevereiro de 2017.8
Os dados de óbitos ocorridos no período, por doenças isquêmicas do coração (DIC) e cerebrovasculares (DCBV), correspondentes aos códigos I20 a I25 e I60 a I69 da Décima Revisão da Classificação Internacional de Doenças (CID-10), foram obtidos do SIM da Secretaria Municipal de Saúde do Rio de Janeiro.
O trabalho foi realizado em três etapas: (I) padronização dos endereços, (II) georreferenciamento por meio do Google Maps e (III) intervenção manual (Figura 1).
A padronização dos endereços, programada em R,9 buscou corrigir erros frequentes, remover caracteres estranhos e padronizar componentes relacionados aos tipos (avenida, praça, rua) e aos títulos (Presidente, Professora, Princesa) dos logradouros. As substituições realizadas constam em material suplementar. Embora essa etapa não tenha eliminado todos os erros, ela foi útil para aumentar a quantidade de endereços georreferenciados automaticamente.
O georreferenciamento foi realizado por meio da Interface de Programação de Aplicativos (API) do Google, acessada com um script programado em R. A API de georreferenciamento compara os endereços informados com a base do Google Maps, para a captura das coordenadas geográficas. A utilização gratuita permite a requisição diária de até 2.500 pares de coordenadas.10 A API também retorna o endereço localizado e sua precisão, como residência, edificação específica (condomínio, parque, aeroporto), logradouro, bairro, cidade etc.
Para verificar a qualidade do georreferenciamento, os endereços encontrados pelo Google receberam o mesmo tratamento dos informados, sendo comparados entre si. Quando não correspondentes, foram transferidos para intervenção manual, juntamente com os demais endereços não localizados. Ademais, uma amostra de 100 endereços georreferenciados automaticamente foi analisada manualmente, para verificar se a coordenada correspondia ao endereço informado.
Na etapa manual, erros ortográficos remanescentes foram corrigidos e novamente submetidos ao georreferenciamento automático. Casos mais complexos exigiram pesquisas manuais, por meio do Google Street View, que permite a visualização do logradouro, e da base de logradouros do município, obtida do Instituto Pereira Passos. Endereços sem número foram georreferenciados nos pontos médios dos logradouros, quando contidos em um setor censitário, devido ao uso desses dados em um estudo epidemiológico. Quando não contido, o endereço foi considerado perda. A verificação baseou-se na sobreposição das bases de logradouros e de setores censitários, obtida da Fundação Instituto Brasileiro de Geografia e Estatística (IBGE).
As perdas foram analisadas pelo mapa de distribuição do percentual por bairro, dado pelo quociente entre o número de perdas e de óbitos (Figura 2). Foram utilizados os softwares R 3.3.2 e QGIS 2.14.
O estudo foi aprovado pelos Comitês de Ética em Pesquisa do Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro (UERJ) e da Secretaria Municipal de Saúde do Rio de Janeiro (Parecer no 531.635, em maio de 2014).
Resultados
Dos 26.081 endereços submetidos ao procedimento, 18.646 (71,5%) foram georreferenciados automaticamente. A correspondência entre os endereços informados e os encontrados, na amostra analisada manualmente, foi de 100%. Os restantes, 7.435, foram encaminhados para intervenção manual, pela qual foram recuperados 5.250, 70,6% dos endereços não localizados inicialmente. Ao final, 91,6% foram georreferenciados. A etapa manual dispendeu o maior tempo, devido à análise individual de cada endereço. A Tabela 1 apresenta os principais resultados.
Etapas do georreferenciamento | Endereços submetidos | Endereços georreferenciados | Tempo gasto |
---|---|---|---|
Etapa 1 - Padronização dos endereços | 26.081 | - | <1 dia |
Etapa II - Georreferenciamento pela APIa do Google | 26.081 | 18.646 | 1-2 semanas |
Etapa III - Intervenção manual | 7.435 | 5.250 | Aproximadamente 4 meses |
a) API: Application Programming Interface (Interface de Programação de Aplicativos).
A Figura 2 mostra a distribuição espacial do percentual de perdas por bairro. A maior proporção correspondeu à Rocinha, maior favela do país. Os bairros que tiveram perdas acima de 15% foram: Barra de Guaratiba; Paquetá; Jacarezinho; Vidigal; Alto da Boa Vista; Pitangueiras; Itanhangá; Complexo do Alemão; Galeão; Parada de Lucas; Gamboa; Manguinhos; Mangueira; Maré; Jacaré; Tauá; Caju; Jacarepaguá; Acari; Inhaúma; Vargem Pequena; Saúde; Santa Cruz; Barros Filho; Curicica; Sepetiba; e Costa Barros.
Discussão
O georreferenciamento de dados do SIM no Rio de Janeiro, utilizando a API do Google, teve alta proporção de acertos, apesar das dificuldades relacionadas à qualidade dos dados e às condições da infraestrutura urbana, marcada por inúmeras ocupações irregulares. A etapa manual foi importante por aproveitar 70% dos dados não georreferenciados automaticamente, reduzindo as perdas a 8,4%. As perdas foram maiores em bairros menos urbanizados, com assentamentos recentes e/ou ocupações irregulares, e de menor nível socioeconômico.
Foram identificados erros de inúmeras naturezas, possivelmente devidos ao informante, ao responsável pelo registro ou digitação do banco, e à base do Google. Houve erros ortográficos, no tipo e/ou título do logradouro, grafias diferentes, nomes diferentes com alguma semelhança fonética, ou mesmo o fato de e logradouro ser reconhecido por um nome diferente do cadastro oficial. A confusão entre bairros foi frequente, especialmente quando vizinhos. Outro problema recorrente foi a falta de preenchimento dos campos de endereço, principalmente do número. Endereços pouco informativos (Rua Um, Rua Projetada etc.), frequentemente, eram perdidos por haver mais de um logradouro com o mesmo nome no bairro. Em alguns desses casos, o CEP, quando presente, facilitava a localização.
Programas de SIG e serviços comerciais, geralmente, são capazes de georreferenciar de 70 a 80% de endereços.11 Em 2003, experiências em munícipios brasileiros como Belo Horizonte e Goiânia, onde há SIG estruturados para georreferenciar endereços dos SIS, apresentaram desempenho acima de 90%; em Porto Alegre e no Rio de Janeiro, utilizando-se de técnicas de interpolação em logradouros, esse desempenho variou entre 60 e 90%.2 Em um trabalho de georreferenciamento por interpolação em logradouros, sobre agravos notificados pelo Sinan em Campinas, Macapá e Rio de Janeiro, datado de 2004, os acertos automáticos foram, respectivamente, de 49, 72 e 48%, e a busca manual acrescentou 34, 20 e 17% dos totais de endereços.12 Outro trabalho, realizado no Rio de Janeiro em 2014, envolvendo dados de tuberculose do Sinan, comparou técnicas baseadas na API do Google e na interpolação com programa comercial: a primeira apresentou melhor desempenho, atingindo 69% - contra 64% de acertos do programa comercial.13
Conforme ressaltado por Magalhães et al.,13 diante da realidade cartográfica do país, em algumas localidades a utilização da API do Google pode ser a única opção para o georreferenciamento. Além disso, a base do Google Maps pode estar mais atualizada que muitas bases cartográficas oficiais de municípios, embora não atenda a todos com igual precisão.
O georreferenciamento pode conter erros, em função do mapeamento ou da acurácia do Google. Erros no mapeamento tendem a ser pouco frequentes entre os dados georreferenciados automaticamente, visto que são locais com melhor endereçamento. A acurácia, por sua vez, diz respeito à proximidade da coordenada obtida - por meio do Google - do valor real. Esses erros têm sido cada vez menores, devido aos esforços do Google no mapeamento de cidades e à crescente utilização das API para inúmeras finalidades de geolocalização.
A ferramenta é útil em atividades de vigilância epidemiológica e gestão de serviços com base no território e na pesquisa epidemiológica sobre determinantes ambientais, entre outras aplicações. Seu desempenho depende da qualidade dos dados e do endereçamento municipal: quanto maior o detalhamento do endereço, menores serão as perdas. Apesar de o georreferenciamento de dados ser acessível e de baixo custo, sua incorporação em serviços de saúde demanda pessoal com habilidades em informática e disponibilidade para a busca manual.