Data Editing
CAPTURA Y CONSOLIDACIÓN DE DATOS
- CAPTURA DE DATOS: Los datos son recolectados directamente de los hogares seleccionados y se toman directamente en un aplicativo denominado GEA a través de DMC que contienen normas de validación que contribuyen a la calidad de los datos. Estos son descargados, con el apoyo del ingeniero de la territorial, e realiza control sobre la completitud y consistencia y luego de pasar este filtro es transmitida al DANE central.
- EDICIÓN DE DATOS: Este proceso final de la recolección valida que no hayan quedado campos incompletos y que se identifiquen omisiones, inconsistencias o incoherencias por ello se requiere realizar una verificación por parte de logística en la territorial quienes verifican telefónicamente o de no ser posible haciendo las revisitas correspondientes a la fuente.
- DISEÑO DE SISTEMAS: El instructivo de ejecución establece el procedimiento de reglas de validación y consistencia de las variables, representadas en cada una de las preguntas del formulario de recolección. Cuenta, además, con los flujos que deben tener las preguntas para cada uno de los casos que se puedan presentar a lo largo de la realización de la encuesta.
Adicionalmente cuenta con los flujos de preguntas entre cada uno de los módulos que hacen parte del formulario. Estas validaciones concuerdan con el proceso de validación interno del Dispositivo Móvil de Captura (DMC), revisado conjuntamente entre las áreas de temática y sistemas.
a. TRANSMISIÓN DE DATOS A DANE CENTRAL
La transmisión de datos de las ciudades de la encuesta se realiza a través de FTP (siglas en inglés de File Transfer Protocol - Protocolo de Transferencia de Archivos) que es un protocolo de red para la transferencia de archivos entre sistemas conectados a una red TCP (siglas en ingles de Transmisión Control Protocol), basado en la arquitectura clienteservidor.
Desde un equipo cliente se puede conectar a un servidor para descargar archivos desde él o para enviarle archivos, independientemente del sistema operativo utilizado en cada equipo. El FTP como medio, facilita el proceso de la encuesta asignándole a cada ciudad un buzón en el servidor de FTP del DANE Central, allí se coloca la información de las encuestas completas que se recolectaron diariamente.
b. CONSOLIDACIÓN DE ARCHIVOS
Para enviar la información al DANE Central, se utiliza la herramienta Mozilla con la que se copia al servidor destinado para el proceso de transmisión, utilizando el protocolo FTP en la carpeta asignada para ello y confirmar inmediatamente que la información está en dicho servidor, se envía mediante correo electrónico. De igual forma, en el DANE Central se realizan las copias de respaldo necesarias y se aplican los planes de contingencia que garanticen el normal funcionamiento del operativo.
Los datos provenientes de la investigación se consolidan diariamente, mediante la herramienta Briefcase; en la que se genera tres archivos planos (vivienda, hogar, persona) Generado los planos esto se cargan a la base de datos Oracle mediante un archivo etl con la herramienta Data Integration de Pentaho a unas tablas temporales y posteriormente a las tablas definitivas y así poder continuar con el procesamiento.
c. PROCESAMIENTO DE DATOS
Verificación de la consistencia interna de los datos y ajustes. El proceso para controlar e identificar los datos faltantes, inválidos o inconsistentes se lleva a cabo mediante el análisis de la variable Incompleta que toma valor 0 cuando la encuesta se encuentra completa y se puede utilizar directamente de la base de datos, y toma valor 1 cuando la encuesta debe ser revisada por datos faltantes inválidos o inconsistentes.
Imputación y/o ajustes de cobertura. El procesamiento es centralizado por DANE Central, e inicia desde el momento en que las Direcciones Territoriales envían la información; los datos son transmitidos por FTP (File Transfer Protocol) y posteriormente cargados en la base de datos Oracle.
En esta operación estadística no se realiza el proceso de imputación, cuando los miembros de los hogares se niegan a responder la encuesta, esta no respuesta es ajustada con los factores de expansión, lo que se explica en el numeral 3.6.1 Componentes del factor de expansión.
Ponderadores. Los resultados muéstrales se llevan a un ajuste por variable exógena, que es un estimador independiente de población, y permite mejorar las estimaciones referentes a las desagregaciones geográficas; se igualan los totales estimados con base en la muestra, con los totales del censo de población proyectados a la fecha de la encuesta. Lo anterior se apoya en la premisa de que la estructura por desagregaciones geográfica, proyectada a partir de un censo de población reciente, es más exacta que la estimada a partir de la muestra.
GENERACIÓN DE CUADROS DE SALIDA:
Para generar los cuadros de salida, se realizan dos fases:
- Primera fase: a nivel de base de datos, se conforman vistas y vistas materializadas con los principales agregados requeridos por los cuadros de acuerdo a las especificaciones suministradas por el equipo temático de la encuesta.
- Segunda fase: a nivel del software SAS, se utilizan los objetos de base de datos, que se construyeron en el ítem anterior, y se realiza la programación para el cálculo de variables auxiliares (porcentajes, máximos y mínimos) y la generación del formato de salida. Una vez los cuadros se generan pasan al equipo de muestras para calcular los coeficientes de variación.
d. ANONIMIZACIÓN DE LAS BASES DE DATOS
Dando cumplimiento al punto número 6, de los principios que rigen las actividades internacionales de estadística de la Oficina de Estadística de las Naciones Unidas: “Los datos individuales recolectados sobre personas naturales o entidades legales, o sobre pequeñas agremiaciones que están sujetas a reglas de confidencialidad nacional, deben mantenerse estrictamente confidencial y ser usadas exclusivamente para fines estadísticos o para propósitos establecidos por la legislación.” Para dar cumplimiento a lo anterior, en abril de 2012 la Oficina de Sistemas del DANE implementó mecanismos para evitar que se tenga acceso directo a los microdatos, mitigando el riesgo de fuga de esta información. Para lo anterior se definen los siguientes casos de acceso a microdato:
- Asignación de permisos a funcionarios del DANE que requieren acceso directo al microdato para el cumplimiento de sus funciones al interior del departamento.
IDENTIFICACIÓN PERSONAL:
Todas las variables relacionadas con identificación son eliminadas de las bases de datos, estas variables sólo son utilizadas durante la recolección de información para acceder al hogar y contactar a los encuestados. Las variables de identificación son:
Municipio, Barrio, Dirección, Teléfono, Sector, Sección, Manzana, Segmento, Estrato de diseño, Edificación, Vivienda Número.
Estas variables, que son absolutamente confidenciales, no se manejan en las bases de datos de acceso público y tampoco se encuentran dentro de las bases de datos utilizadas al interior del DANE para la generación de estadística básica.
DATOS DE LA VIVIENDA Y DATOS DEL HOGAR.
Las variables se capturan con opciones de respuesta que no permiten la identificación particular de las viviendas, sino la caracterización por tipo de vivienda. Los datos del hogar están enmarcados en la medición de las condiciones de quienes lo habitan.
DATOS DE LAS PERSONAS
Las variables relacionadas con nombres y apellidos no son utilizadas en ninguna etapa posterior a la captura de información y no se encuentran en las bases de datos de uso público. Como parte del proceso de anonimización.