Data Editing
TRANSMISIÓN DE DATOS
Este proceso comienza con la consolidación y la preparación de los datos en las diferentes sedes y subsedes del DANE. Una vez culminada esta primera fase, se ejecuta el software con el que se organizan y comprimen los datos en un archivo. Zip para su transmisión al DANE Central vía FTP (File Transfer Protocol), que es un protocolo de red para la transferencia de archivos entre sistemas conectados a una red, garantizando de esta manera la integridad desde su origen.
Para esto, se asigna un usuario y contraseña al asistente informático de cada una de las ciudades del país con el fin que utilicen este medio de transmisión. En el buzón FTP se crea una estructura de directorios definida para las áreas de cartografía, logística y sistemas, donde se depositan los datos y demás informes requeridos durante el operativo. Este medio es monitoreado diariamente con el fin de mantener un procesamiento continuo de toda la información recibida.
PROCESO DE DISEÑO Y CAPTURA
ELEMENTOS DE PROCESO
Inicio del proceso de solicitud de generación de formulario, encuesta o investigación.
- REGISTRAR SOLICITUD DE CREACIÓN DE FORMULARIOS
Entrega de los documentos con los insumos para la encuesta por parte del componente temático de la investigación.
- ANÁLISIS DE FACTIBILIDAD CON LA HERRAMIENTA DE DISEÑO
Se evalúa la viabilidad de implementación del formulario en el diseñador de encuestas, según la documentación entregada (Formulario y normas de validación y consistencia).
- DECISIÓN DE APROBACIÓN
Aprueba o Rechaza la solicitud.
- CONFIGURAR DOMINIOS DE PREGUNTAS
En el diseñador de encuestas se implementan los dominios de preguntas de tipo Numérico, Texto, Fecha, Lista de valores (Única, Múltiple) o tablas prediseñadas en formato csv.
- DISEÑAR FLUJO DE PREGUNTAS
El diseño del flujo de preguntas se organiza a través de la hoja de encuesta establecida para ello en el diseñador de encuestas.
- ASOCIAR REGLAS DE VALIDACIÓN
Se implementan las reglas de validación de acuerdo al documento de especificaciones y consistencia, se validan entre otras, Rangos, Tipos de Datos, Flujo de datos, Operaciones Aritméticas.
- GENERAR TABLAS
La generación de tablas en formato csv se realiza para aquellas listas que tienen gran cantidad de dominios, con el fin de hacer más ágil el llamado de las mismas dentro del formulario.
- DEFINIR REGLAS DE VALIDACIÓN CIERRE DE FORMULARIO
Las reglas de validación de cierre de encuestas involucran el ingreso de preguntas de control de flujo de la encuesta, a nivel de vivienda, hogar, personas y capítulos específicos, en donde a través de especificaciones se controla el acceso a determinados capítulos del formulario.
- COMPILAR FORMULARIO
Una vez elaborado el formulario se puede realizar la compilación del mismo con el fin de validarlo y verificar que cumpla con las funcionalidades definidas en las especificaciones.
- EJECUTAR PLAN DE PRUEBAS
Una vez diseñados y modelados los procesos para la captura de información se procede a realizar un plan de pruebas, que permita evaluar el formulario y determinar su salida a campo, mediante pruebas de escritorio y consistencia de datos.
- IMPLEMENTAR MUESTRA
Permite cargar en el formulario la información de los segmentos y manzanas a recolectar definidos en la muestra.
- GENERAR INSTALADORES
Los instaladores son generados por ciudad o municipio, de acuerdo a las especificaciones diseñadas por el componente logístico de la investigación.
- DISPOSICIÓN Y DESCARGA DE APLICATIVOS EN FTP
Los instaladores son dispuestos en el buzón FTP en formato comprimido (rar) y posteriormente descargados por parte del apoyo de sistemas responsable en cada una de las ciudades o municipios, el cual tiene un nombre de usuario y una clave de autenticación para acceder al buzón.
- PRUEBA DEL APLICATIVO Y COMPROBACIÓN DE SEGMENTOS
El apoyo informático de cada una de las ciudades realiza pruebas de escritorio, simulación en campo y se encarga de validar el formulario y la muestra allí implementada para la encuesta.
- CAPTURA EN CAMPO
Una vez digitados los datos en los dispositivos móviles de captura - DMC, se debe generar un backup de la información recolectada diariamente por cada encuestador, el supervisor debe realizar el proceso de validación y consistencia de la información para el proceso de cierre de cada una de las encuestas, la información debe ser entregada al apoyo informático.
- CONSOLIDACIÓN DE INFORMACIÓN
Consiste en ir almacenando en el computador personal del apoyo de sistemas, en una estructura de archivos definida, todas las encuestas realizadas, para su posterior envío.
- TRANSMISIÓN DE INFORMACIÓN VÍA FTP
Una vez capturada la información diariamente se comprime y se dispone en el buzón FTP creado, para su posterior análisis y procesamiento.
Finalización del proceso.
CREACIÓN DE LA BASE DE DATOS
Se cuenta con un motor de bases de datos ORACLE y un esquema creado para la investigación que permite el cargue y almacenamiento general de los datos. La base de datos para la investigación asignada es una base de datos relacional en donde cada tabla corresponde a un capítulo de la encuesta, existe un único registro por vivienda.
Se debe asignar el número de la Encuesta asociado a la investigación y definir los tipos de datos, texto de la pregunta, listas de valores asociadas, subpreguntas entre otros. De igual manera definir los formularios y subformularios: para las encuestas a hogares generalmente incluyen los tres niveles básicos para la toma de información: Vivienda, Hogar y Personas, cada uno de los niveles relacionado consta de uno o varios capítulos de acuerdo con la temática. Opcionalmente se establecen los flujos y validaciones de todas y cada una de las preguntas
En la estructura del formulario se debe asociar a cada pregunta el código equivalente con el código de pregunta en Oracle, incluyendo el número de formulario. Adicionalmente como parte del diseño se crea un ETL (Extract, Transform and Load) en Pentaho Data Integration y se carga la muestra a una tabla de la base de datos, para poder realizar el cargue de la información.
ENVÍO DE INFORMACIÓN
Diariamente se envía información de encuestas completas a DANE Central. Para este proceso se consolida la información y se realiza la transmisión de datos de las encuestas a través del FTP (File Transfer Protocol), que es un protocolo de red para la transferencia de archivos entre sistemas conectados a una red, basado en la arquitectura cliente-servidor. Desde el equipo cliente las ciudades o municipios se conectan a un servidor para descargar archivos desde él o para enviarlos.
A cada ciudad o municipio se le crea un buzón en el servidor FTP del DANE Central, en el cual se dispone la información de las encuestas completas que se recolectan diariamente. Al final del operativo, se coloca toda la información faltante de los segmentos asignados para recolección (Encuestas completas e incompletas).
CONSOLIDACIÓN DE ARCHIVOS
Recibidos los archivos, la información es descargada del buzón FTP y almacenada en una estructura jerárquica que permite realizar la desencripción de los datos. Una vez se seleccionan los archivos que se deben cargar en la base de datos, se realiza el proceso de carga utilizando la transformación diseñada con Pentaho Data Integration.
CARGUE DE INFORMACIÓN
Al iniciar el proceso de carga se verifica la identificación única para cada encuesta, garantizando que no exista duplicidad en la información, y se asigna un directorio único a cada encuesta. Una vez cargados los datos, se genera un log que indica el estado o posibles fallas presentadas durante el proceso y se procede a trasponer toda la información, proceso que permite poblar las tablas creadas en la base de datos para cada capítulo de la investigación. De esta manera cada tabla está relacionada a cada uno de los niveles que se manejan dentro de la encuesta (vivienda - hogar - persona).
CONSISTENCIA DE INFORMACIÓN
A través del desarrollo de sentencias Oracle, se identifican posibles inconsistencias por duplicidad a nivel de personas y problemas de selección de segmentos a trabajar. Se generan reportes de cobertura y frecuencias que permiten realizar constantemente el monitoreo y control a la información que se ha recolectado y cargado en las bases de datos.
Posteriormente en el esquema diseñado en ORACLE se crean procedimientos para validar la información de la base de datos, flujos, variables sin información, rangos y estructura, con el fin de obtener una base de datos consistente.
Es así que cada investigación queda almacenada en su propio esquema de base de datos. Esto permite que los datos se mantengan aislados de la información de otras investigaciones y los permisos de acceso a los usuarios se realicen mediante los mecanismos de roles y privilegios propios del sistema manejador de base de datos.
PROCESAMIENTO DE DATOS
En el procesamiento de datos se utiliza el programa informático SAS (Statistical Analysis System) diseñado para el análisis de datos y soluciones estadísticas. Para esto se llevan a cabo: la verificación interna de los datos y ajustes; la imputación, ajustes de cobertura y generación de cuadros de salida; y el proceso de anonimización.
- Verificación de la consistencia interna de los datos y ajustes
Se realiza la revisión de totales y subtotales para cada variable dependiendo del dominio geográfico en términos de: viviendas, hogares y personas. También se generan las frecuencias de las principales variables y se realizan análisis de las respectivas distribuciones de los valores extremos y de los totales entre otros. Finalmente, como resultado de este proceso se realiza un reporte de inconsistencias que es enviado al equipo de temática, quien solicita los respectivos ajustes y corrección de las mismas, en caso de ser necesario.
- Imputación y ajustes de cobertura
Una vez cumplidas las etapas de consistencia, depuración, validación de la información y revisión de frecuencias y cumplidos todos los procesos estadísticos que garantizan la calidad y cobertura de la investigación, se realiza la conformación de la base solo con las encuestas completas. El componente temático de la encuesta entrega los documentos con las especificaciones para la generación de cuadros de salida, estos son desarrollados y posteriormente se ejecutan los programas que permiten generarlos sobre la base de datos de encuestas completas y se efectúan los análisis de resultados. Estos cuadros se generan en HTML o XLS. Debido a la óptima calidad de la información en las encuestas de calidad de vida, hasta el momento no ha sido necesario llevar a cabo procesos de imputación.
Revisados los cuadros generados por parte del equipo temático, se realizan ajustes a los programas, en caso de ser necesario, posteriormente se reciben los factores de expansión por parte del equipo de muestras y se generan los cuadros de salida definitivos, que permiten la visualización de los resultados de la encuesta.
- Proceso de anonimización
El equipo de temática determina las variables que por confidencialidad deben ser anonimizadas en la base de datos que se va a publicar y a partir de la base de datos final, es decir solo con las encuestas completas, arma un archivo que remite al área de sistemas. Dicha área luego de realizar ese proceso reenvía el archivo al área temática para su verificación y aprobación y posterior publicación en la página web de DANE.
Para la ECV se determina no mostrar en la base de datos algunas variables correspondientes a la identificación de las viviendas como son la dirección, barrio, número telefónico, etc. y variables de las personas tales como nombre y apellido, fecha de nacimiento, nombre de la empresa donde trabaja entre otras, también se hace una codificación de la rama de actividad y la ocupación de las personas que trabajan, esta se hace de acuerdo a las nomenclaturas y clasificaciones explicadas anteriormente, garantizando así la reserva estadística.