Data Editing
TRANSMISIÓN DE DATOS
Este proceso comienza con la consolidación y la preparación de los datos en las diferentes sedes y subsedes del DANE. Una vez culminada esta primera fase, se ejecuta el software Swing con el que se organizan y comprimen los datos en un archivo .Zip para su transmisión al DANE Central vía FTP (File Transfer Protocol), que es un protocolo de red para la transferencia de archivos entre sistemas conectados a una red, garantizando de esta manera la integridad desde su origen.
Para esto, se asigna un usuario y contraseña al asistente informático de cada una de las 24 ciudades del país con el fin que utilicen este medio de transmisión. En el buzón FTP se crea una estructura de directorios definida para las áreas de cartografía, logística y sistemas, donde se depositan los datos y demás informes requeridos durante el operativo. Este medio es monitoreado diariamente con el fin de mantener un procesamiento continuo de toda la información recibida.
PROCESO DE DISEÑO Y CAPTURA
Elementos de Proceso
- Inicio del proceso de solicitud de generación de formulario, encuesta o investigación.
- Registrar Solicitud de Creación de Formularios: Entrega de los documentos con los insumos para la encuesta por parte del componente temático de la investigación.
- Análisis de Factibilidad con la Herramienta de Diseño: Se evalúa la viabilidad de implementación del formulario en el diseñador de encuestas, según la documentación entregada (Formulario y normas de validación y consistencia).
- Decisión de Aprobación: Aprueba o Rechaza la solicitud.
- Configurar Dominios de Preguntas: En el diseñador de encuestas se implementan los dominios de preguntas de tipo Numérico, Texto, Fecha, Lista de valores (Única, Múltiple) o tablas prediseñadas en formato csv.
- Diseñar Flujo de Preguntas: El diseño del flujo de preguntas se organiza a través de la hoja de encuesta establecida para ello en el diseñador de encuestas.
- Asociar Reglas de Validación: Se implementan las reglas de validación de acuerdo al documento de especificaciones y consistencia, se validan entre otras, Rangos, Tipos de Datos, Flujo de datos, Operaciones Aritméticas.
- Generar Tablas: La generación de tablas en formato csv se realiza para aquellas listas que tienen gran cantidad de dominios, con el fin de hacer más ágil el llamado de las mismas dentro del formulario.
- Definir Reglas de Validación Cierre de Formulario: Las reglas de validación de cierre de encuestas involucran el ingreso de preguntas de control de flujo de la encuesta, a nivel de vivienda, hogar, personas y capítulos específicos, en donde a través de especificaciones se controla el acceso a determinados capítulos del formulario.
- Compilar Formulario: Una vez elaborado el formulario se puede realizar la compilación del mismo con el fin de validarlo y verificar que cumpla con las funcionalidades definidas en las especificaciones.
- Ejecutar Plan de Pruebas: Una vez diseñados y modelados los procesos para la captura de información se procede a realizar un plan de pruebas, que permita evaluar el formulario y determinar su salida a campo, mediante pruebas de escritorio y consistencia de datos.
- Implementar muestra: Permite cargar en el formulario la información de los segmentos y manzanas a recolectar definidos en la muestra.
- Generar Instaladores: Los instaladores son generados por ciudad o municipio, de acuerdo a las especificaciones diseñadas por el componente logístico de la investigación.
- Disposición y Descarga de Aplicativos en FTP: Los instaladores son dispuestos en formato comprimido (rar) y posteriormente descargados por parte del apoyo de sistemas del FTP asignado, el cual tiene un nombre de usuario y una clave de autenticación para acceder a los buzones.
- Prueba del aplicativo y Comprobación de Segmentos: El apoyo informático de cada una de las ciudades realiza pruebas de escritorio, simulación en campo y se encarga de validar el formulario y la muestra allí implementada para la encuesta.
- Captura en Campo: Una vez digitados los datos en los dispositivos móviles de captura - DMC, se debe generar un backup de la información recolectada diariamente por cada encuestador, el supervisor debe realizar el proceso de validación y consistencia de la información para el proceso de cierre de cada una de las encuestas, la información debe ser entregada al apoyo informático.
- Consolidación de Información: Consiste en ir almacenando en el computador personal del apoyo de sistemas, en una estructura de archivos definida, todos las encuestas realizadas, para su posterior envío.
- Transmisión de Información vía FTP: Una vez capturada la información diariamente se comprime y se dispone en el buzón FTP creado, para su posterior análisis y procesamiento.
- Finalización del proceso.
Creación de la Base de Datos (Oracle)
Es necesario contar con el motor de bases de datos ORACLE, en un esquema creado para la investigación que permite el cargue y almacenamiento general de los datos. La base de datos para la investigación asignada, es una base de datos relacional en donde cada tabla corresponde a un capítulo de la encuesta, existe un único registro por vivienda.
Se debe asignar el número de la Encuesta asociado a la investigación y definir los tipos de datos, texto de la pregunta, listas de valores asociadas, subpreguntas entre otros. De igual manera definir los formularios y subformularios: para las encuestas a hogares generalmente incluyen los tres niveles básicos para la toma de información: Vivienda, Hogar y Personas, cada uno de los niveles relacionado consta de uno o varios capítulos de acuerdo a la temática. Opcionalmente se establecen los flujos y validaciones de todas y cada una de las preguntas
En la estructura del formulario se debe asociar a cada pregunta el código equivalente con el código de pregunta en Oracle, incluyendo el número de formulario.
Proceso de carga de la información
Una vez recibida la información en archivos .xml, se utiliza la herramienta ODK Briefcase que permite organizar en archivos de estructuras jerárquicas -viviendas, hogares, personas- la información para ser procesada en otras aplicaciones. Para esta investigación el procedimiento de carga se ejecutó a través de una transformación diseñada con Pentaho Data Integration
- Cargue de información: Al iniciar el proceso de carga se verifica la identificación única para cada encuesta, garantizando que no exista duplicidad en la información, y se asigna un directorio único a cada encuesta.
Una vez cargados los datos, se genera un log que indica el estado o posibles fallas presentadas durante el proceso y se procede a hacer la transposición de toda la información, proceso que permite poblar las tablas creadas en la base de datos para cada capítulo de la investigación. De esta manera cada tabla está relacionada a cada uno de los niveles que se manejan dentro de la encuesta (vivienda - hogar - persona).
- Consistencia de información: A través del desarrollo de sentencias Oracle, se identifican posibles inconsistencias por duplicidad a nivel de personas y problemas de selección de segmentos a trabajar. Se generan reportes de cobertura y frecuencias que permiten realizar constantemente el monitoreo y control a la información que se ha recolectado y cargado en las bases de datos.
Posteriormente, en el esquema diseñado en ORACLE se crean procedimientos para validar la información de la base de datos, flujos, variables sin información, rangos y estructura, con el fin de obtener una base de datos consistente.
Es así que cada investigación queda almacenada en su propio esquema de base de datos. Esto permite que los datos se mantengan aislados de la información de otras investigaciones y los permisos de acceso a los usuarios se realicen mediante los mecanismos de roles y privilegios propios del sistema manejador de base de datos.
PROCESAMIENTO DE DATOS
Para este se llevan a cabo: la verificación interna de los datos y ajustes; la imputación y los ajustes de cobertura; la generación de ponderadores y el proceso de anonimización.
- Verificación de la consistencia interna de los datos y ajustes: Se realiza la revisión de totales y subtotales para cada variable dependiendo del dominio geográfico en términos de: viviendas, hogares y personas. También se generan las frecuencias de las principales variables y se realizan análisis de las respectivas distribuciones de los valores extremos y de los totales entre otros. Finalmente como resultado de este proceso se realiza un reporte de inconsistencias y se solicita al grupo de sistemas el respectivo ajuste y corrección de las mismas.
- Imputación y ajustes de cobertura: Una vez cumplidas las etapas de consistencia, depuración, validación de la información y revisión de frecuencias y cumplidos todos los procesos estadísticos que garantizan la calidad y cobertura de la investigación, se realiza la conformación de la base solo con las encuestas completas. A partir de dicha base se generan todos los cuadros de salida y se efectúan los análisis de resultados. Debido a la óptima calidad de la información en las encuestas de calidad de vida, hasta el momento no ha sido necesario llevar a cabo procesos de imputación.
- Generación de ponderadores: Los resultados expandidos se llevan a un ajuste por variable exógena, que constituye un estimador independiente de población. Lo anterior se basa en la premisa de que la estructura por desagregaciones geográficas que es proyectada a partir de un censo de población reciente es más exacta que la estimada a partir de la muestra. Para este procedimiento se aplican los estimadores de calibración que usan información auxiliar relacionada con las variables de estudio, con el fin de mejorar la precisión y reducir los sesgos en las estimaciones.
- Proceso de anomización: El equipo de temática determina las variables que por confidencialidad deben ser anonimizadas en la base de datos que se va a publicar y a partir de la base de datos final, es decir solo con las encuestas completas, arma un archivo que remite al área de sistemas. Dicha área luego de realizar ese proceso reenvía el archivo al área temática para su verificación y aprobación y posterior publicación en la página web de DANE.
Para la ECV se determina no mostrar en la base de datos algunas variables correspondientes a la identificación de las viviendas como son la dirección, barrio, número telefónico, etc. y variables de las personas tales como nombre y apellido, fecha de nacimiento, nombre de la empresa donde trabaja entre otras, también se hace una codificación de la rama de actividad y la ocupación de las personas que trabajan, esta se hace de acuerdo a las nomenclaturas y clasificaciones explicadas anteriormente, garantizando así la reserva estadística.