Sampling Procedure
PRESENTACION
La Encuesta Nacional de Demografía y Salud 2005 (ENDS 2005) se realizó en la Muestra Maestra de PROFAMILIA, ampliada y actualizada en su diseño, en un total de 37,211 hogares, concentrados en 3,935 segmentos, de 208 Unidades Primarias de Muestreo (básicamente municipios), de los 33 departamentos del país. Los segmentos están distribuidos proporcionalmente en las cabeceras municipales y la zona rural.
El universo de estudio comprende el 99 por ciento de la población urbana y rural de los 33 departamentos del país. Se excluyó del universo la población rural de la Orinoquía y la Amazonía, en razón de los muy elevados costos unitarios de su cubrimiento, pues está dispersa en cerca de 500,000 km2 y porque representa menos del 1 por ciento de la población total.
Para los 22 mayores departamentos el tamaño de la muestra se fijó en 1,200 hogares, lo cual garantiza estimaciones de aceptable y similar precisión para los más importantes indicadores, así:
- Para las mujeres en edad fértil, la estimación de indicadores con una probabilidad de ocurrencia de 0.20 o más, con un error estándar relativo (ESrel) del 10 por ciento o menos.
- Para las mujeres actualmente unidas y para los niños menores de 5 años, la estimación de indicadores con probabilidad de 0.3 o más, con un ESrel del 12 por ciento o menos.
Indicadores de menor frecuencia en estos subgrupos de población, u otros de similar tamaño, también pueden ser estimados a nivel departamental, pero con menor precisión (ESrel mayor).
Para San Andrés y Providencia, y para los departamentos de la Orinoquía y la Amazonía, la muestra de la ENDS 2005 se fijó alrededor de 600 hogares, lo que significa la posibilidad de estimaciones independientes de aceptable precisión (ESrel del 12 por ciento o menos) sólo para indicadores de mayor frecuencia, o también, la posibilidad de estimaciones para parejas de departamentos, con precisión similar a la de los departamentos con muestra más grande.
A medida que se acumula la muestra por subregiones (14-16), regiones (6) y para el conjunto del país, no sólo aumenta progresivamente la precisión de las estimaciones (menor ESrel), sino que es factible la estimación de fenómenos de menor probabilidad de ocurrencia, y la partición sucesiva de la muestra en múltiples subgrupos de análisis demográficos y socioeconómicos.
LA MUESTRA MAESTRA
La muestra de PROFAMILIA tiene el carácter de Muestra Maestra porque sus unidades de muestreo (UPM, segmentos) son clasificables en varias submuestras, las cuales pueden ser utilizadas o adaptadas total o parcialmente para investigaciones similares o de diferentes objetivos, en forma simultánea, sucesiva o acumulativa, y porque sus materiales pueden ser utilizados repetitivamente a través del tiempo. Además las unidades primarias de muestreo (UPM) admiten la selección rotativa de segmentos adicionales, para atender nuevos requerimientos investigativos.
Con motivo de la ENDS 2005, que demandó un tamaño de muestra inusualmente grande para garantizar estimaciones departamentales, fue necesaria la implementación de un programa de ampliación de la muestra maestra existente, conformada por 61 Unidades Primarias, que había sido ampliada a 150 UPM y que era insuficiente para las necesidades de la ENDS 2005.
Se decidió entonces un rediseño total para garantizar una muestra de óptima estructura y composición, que facilitara el necesario ajuste con base en los próximos resultados del Censo General 2005 que actualmente adelanta el Departamento Administrativo Nacional de Estadísticas (DANE). Se utilizó para el efecto la metodología sugerida por Kish que, garantizando un proceso probabilístico, permite mantener el máximo posible de unidades de muestreo de la actual muestra y que reduce por consiguiente los costos de la ampliación.
TIPO DE MUESTRA PARA LA ENDS 2005
El diseño implementado es probabilístico, de conglomerados, estratificado y polietápico. Probabilístico, porque cada unidad del universo estudiado tuvo una probabilidad de selección conocida y superior a cero. Las muestras probabilísticas tienen la ventaja de permitir establecer a priori la precisión requerida en las estimaciones y calcular a posteriori la precisión observada en los resultados.
La probabilidad final de cada sujeto de estudio (hogar y sus miembros), está dada por el producto de las probabilidades de las varias fases del proceso de selección.
Los conglomerados son de varias categorías. Las Unidades Primarias de Muestreo (UPM) están constituidas por municipios, o combinación de dos o más de éstos (si son menores de 7,000 habitantes). El tamaño mínimo se determinó con base en la cantidad de segmentos necesarios para que un municipio de la muestra represente el estrato al cual pertenece.
Las Unidades Secundarias de Muestreo (USM) están conformadas por manzanas en la zona urbana, y por secciones censales en la zona rural.
Las Unidades Terciarias de Muestreo (UTM) son los segmentos de hogares contiguos (alrededor de 10) que se seleccionaron en cada USM.
La conglomeración de la muestra, es decir, su concentración en un número limitado de conglomerados, tiene grandes ventajas en el estudio de universos grandes y dispersos, pues reduce los costos unitarios de la recolección, a cambio de una moderada reducción en la precisión de las estimaciones. Tal reducción, a su vez, se compensa con un pequeño incremento del tamaño total de la muestra. El efecto de la conglomeración o efecto del diseño (deff o EDIS) depende del grado de homogeneidad interna de los conglomerados, la cual se mide por la correlación intraclase. Las múltiples investigaciones de PROFAMILIA en muestras de hogares de similar conglomeración a la rediseñada, permitieron el cálculo del deff, que facilitó la exploración del tamaño de muestra requerido para la ENDS 2005.
Antes de la selección, las UPM se clasificaron en grupos o estratos de unidades similares dentro de cada departamento, para aumentar la precisión de las estimaciones. La estratificación es la técnica de optimización, por excelencia, en el muestreo probabilístico. La ganancia en precisión está asociada con el grado de homogeneidad interna de las unidades de los estratos y el grado de heterogeneidad entre un estrato y otro. Las variables de estratificación deben estar altamente correlacionadas con las variables centrales de estudio (variables dependientes) y mínimamente correlacionadas entre sí, para una mayor complementariedad.
Las siguientes fueron las variables de estratificación de las UPM: población de la cabecera, porcentaje urbano-rural, Índice de Condiciones de Vida (ICV), vecindad geográfica y tamaño promedio del estrato. Dentro de las UPM, el ordenamiento geográfico de las manzanas facilitó una buena composición por estrato socioeconómico.
Las UPM con población similar al tamaño promedio de los estratos, constituyeron por sí mismas un estrato, por lo cual tuvieron probabilidad 1, y entraron directamente en la muestra. Hubo un total de 53 unidades de "certeza", que corresponden principalmente a las capitales departamentales y un total de 155 estratos de "no certeza", con dos o más UPM.
La muestra es polietápica, es decir, con varias etapas en el proceso de selección: en la primera etapa se seleccionan las UPM; segunda etapa, selección de manzanas y secciones rurales; tercera etapa, selección de segmentos. En la zona rural dispersa, una vez seleccionada la sección rural, para la selección de segmentos se utilizó muestreo de áreas a partir de la cartografía del Instituto Geográfico Agustín Codazzi; esta metodología representó etapas adicionales en oficina: selección de una 'parte' de cada sección; selección de una 'fracción' en cada parte y, en campo: levantamiento cartográfico, segmentación y selección final del segmento en cada 'fracción'. La última etapa tanto en la zona urbana como la rural consistió en la selección de hogares dentro de cada segmento.
Cada etapa tiene su probabilidad y fue de rigurosa selección aleatoria. El producto de las probabilidades de las varias etapas que llevaron a la selección de un hogar y de una persona, es la probabilidad final de selección del hogar y de la persona. El cálculo cuidadoso de las probabilidades de selección es indispensable para la estimación insesgada de los resultados.
EL TAMAÑO DE LA MUESTRA Y LA PRECISIÓN ESPERADA
Los cálculos exploratorios del tamaño de la muestra facilitaron la discusión de alternativas en función de precisión deseada y de desagregación requerida de los resultados. A su vez, la precisión esperada de la muestra decidida permitió establecer las implicaciones de la decisión tomada. Se utilizaron fórmulas de muestreo aleatorio simple adaptadas para el diseño de conglomerados propuesto.
SELECCIÓN DE LA MUESTRA
Selección de UPM
Dentro de cada estrato se seleccionó una UPM con probabilidad proporcional al tamaño de la población (PPT). Inicialmente, se identificaron las UPM seleccionadas en la muestra anterior. Si había solamente una de estas UPM preseleccionada, se aceptaba en la nueva muestra, con su nueva probabilidad de selección. Si había dos o más UPM preseleccionadas, se escogía una de ellas con PPT.
Para el resto de estratos se construyó un proceso de "Selección Controlada". El objetivo de este método es reducir el error de muestreo en una magnitud adicional a la lograda con la previa estratificación.3 Se define la selección controlada como un "proceso por el cual, manteniendo las probabilidades originales de selección de las UPM, las probabilidades para algunas combinaciones o patrones preferidos de UPM (una por estrato) pueden ser más grandes que las del muestreo estratificado corriente. En forma correspondiente, las probabilidades de patrones no preferidos pueden ser más pequeñas que lo lograble con dicho muestreo estratificado".
Se llama patrón preferido el constituido por un conjunto de UPM, tomando una unidad de cada estrato, de características diferentes (variables de estratificación), de tal manera que reflejen en conjunto óptimamente, la heterogeneidad del universo de estudio. El patrón de UPM se establece "por conveniencia", tratando que sea "favorable", pero se le asigna una probabilidad de selección igual a la más baja de las probabilidades de las UPM combinadas.
Las UPM cuya probabilidad es mayor que la del patrón, deben participar en más patrones, con la probabilidad restante, hasta que se utilice la totalidad de su probabilidad. La conformación de los patrones termina cuando se ha utilizado completamente la probabilidad de todas las UPM y, se procede a la selección probabilística de uno de los patrones. Las UPM del patrón seleccionado constituyen la muestra por ser recolectada. Para la muestra de PROFAMILIA, se construyó un conjunto de patrones para cada departamento. De cada conjunto, se seleccionó uno probabilísticamente, para constituir la muestra de UPM de los departamentos.
Selección de Segmentos
Utilizando como marco de muestreo los mapas y listados del Censo Nacional de Población de 1993 disponibles en el Departamento Administrativo de Estadística (DANE) y los mapas rurales del Instituto Geográfico Agustin Codazzi (IGAC), se procedió de la siguiente manera:
- Se estimó el número de segmentos de 10 hogares, en promedio, que tenía la muestra en cada UPM seleccionada. Tal asignación se hizo en función del tamaño de la población del estrato respectivo para las UPM de no certeza; y de la población de las UPM de certeza. El número de segmentos urbanos y rurales (cabecera y resto) en cada UPM, se definió con base en la composición urbano-rural de la población general de los estratos y de las UPM de certeza.
- Se seleccionó independientemente para cada UPM la muestra de segmentos. Inicialmente, en cada UPM seleccionada, se listaron los hogares censados por área mínima de empadronamiento del censo de población de 1993 (sector, sección o manzana); se calculó el número de segmentos teóricos de 10 hogares en promedio; se elaboró una frecuencia acumulada de segmentos teóricos separado por cabecera y resto; se calculó un intervalo de muestreo (segmentos existentes sobre segmentos a ser seleccionados); y se seleccionaron los segmentos de la muestra, aplicando sistemáticamente el intervalo de muestreo a partir de un arranque aleatorio.
Se identificaron en la cartografía, también a nivel central, los sectores, secciones y manzanas que contenían los segmentos de la muestra, que posteriormente fueron visitados para levantar el croquis con las viviendas y hogares existentes.
Para la zona rural, se llevó a cabo la segmentación en la oficina central de la ENDS 2005, en PROFAMILIA. El procedimiento tuvo varias etapas. Primero, se ubicó en la cartografía disponible la sección censal rural que contenía uno o más segmentos de la muestra; segundo, se dividió la sección en grandes "partes", con límites claramente identificables, se asignó a cada parte el número de segmentos (10 hogares en promedio) que podía contener según la apreciación realizada con estereoscopios, y se seleccionó con PPT una o más partes, según el número de segmentos preseleccionados; tercero, en cada parte seleccionada, se hizo una división en fracciones, utilizando también límites identificables, y se seleccionó una fracción con PPT.
Tanto para la zona urbana como en la zona rural, una vez identificado el segmento demarcado cartográficamente, sobre el terreno se construyeron los croquis de los segmentos, con un promedio de 10 viviendas continuas, utilizando todo tipo de límites, divisiones o señales existentes en el terreno (calles y puntos de referencia, quebradas, ríos).
PROCEDIMIENTOS DE ESTIMACIÓN DE LOS RESULTADOS
Los procedimientos de estimación se refieren a los esquemas para estimar insesgadamente los valores e indicadores de los universos de estudio. Son fuentes de sesgo las probabilidades variables de selección de las unidades últimas de observación (hogares, personas), la cobertura incompleta de la muestra seleccionada, las imperfecciones del marco de muestreo utilizado en la selección de las muestras, los errores en el diseño de los instrumentos de medición, y las deficiencias en la selección y capacitación de los recolectores, en la captación de los datos y en su procesamiento. El efecto negativo de las diferentes probabilidades de selección se controla ponderando los valores muestrales por el recíproco de la probabilidad final de las unidades últimas de observación, o por un factor equivalente. La probabilidad final es el producto de las probabilidades parciales de cada una de las etapas del proceso de selección. El recíproco mencionado se le llama también "factor de expansión", pues su aplicación genera estimaciones insesgadas de los valores absolutos del universo de investigación.
La no cobertura de algunas de las unidades de muestreo seleccionadas es causante de sesgos de estimación cuando las tasas de no cobertura varían entre los distintos subgrupos de la población y cuando los indicadores de estudio también difieren entre estos grupos. La minimización del sesgo se logra con un factor de ajuste, aplicado a nivel de conglomerado mínimo de la muestra, cuando existe evidencia de que, a este nivel, las unidades encuestadas son, en promedio, similares a las no encuestadas.
Para la ENDS 2005, el factor básico de expansión, ajustado por no respuesta se convirtió en una ponderación alrededor de la unidad, dividiendo dichos factores por el factor de expansión promedio, con el fin de dar los resultados absolutos en términos del tamaño de muestra.
Debido a que el tamaño de la muestra de los diferentes departamentos es similar, a pesar de ser muy variable la población de éstos, son diferentes las probabilidades de selección de los hogares de departamento a departamento. Esta situación de variables probabilidades se corrige a través de la ponderación mencionada, con una implicación: la muestra ponderada acumulada de los departamentos pequeños, se reduce en función del peso del departamento en el contexto nacional, y la muestra ponderada de los grandes, se aumenta proporcionalmente al peso de éstos.