Sampling Procedure
OBJECTIFS
Le document du projet fixe la taille de l'échantillon à environ 4000 femmes de 15 à 49 ans. L'expérience d'autres pays africains indique qu'on peut prévoir une perte de l'ordre de 10% lors des différentes opérations de l'enquête, que ce soit la conséquence:
- d'une couverture incomplète au stade du dénombrement des ménages;
- des ménages sélectionnés mais non contactés dans l'enquête;
- des ménages qui refusent l'enquête; des femmes sélectionnées mais non contactées;
- des femmes qui refusent l'enquêté;
- des femmes exclues à la suite d'une déclaration erronée, par exemple, femme âgée de 49 ans déclarée 50.
Nous introduirons donc une majoration d'environ 10 pour cent pour compenser ces pertes dès le début. L'échantillon cible sera alors fixé à 4500 femmes dans l'espoir qu'on en enquêtera au moins 4000.
L'échantillon devra être représentatif au niveau national et de préférence auto-pondéré. C'est-à-dire que chaque femme de 15 à 49 ans aura la même chance d'être tirée dans l'échantillon. On peut calculer cette probabilité de la manière suivante:
- Population recensée le 15 novembre 1981: 2.719.000
- Taux d'accroissement annuel estimatif: 2,9%
- Date centrale de l'Enquête Démographique et de Santé: mai 1988
Population estimée à cette date 3.274.000
Pourcentage de femmes de 15 à 49 ans dans la population totale, selon le recensement: (617.827/2.719.000) x 100 = 22,7 %
Ce chiffre étant très stable entre pays africains (presque toujours entre 21 et 24), on supposera qu'il n'a pas changé depuis 1981. D'où le nombre de femmes de 15 à 49 ans existant au moment de l'enquête peut être estimé à: 22,7 % de 3.274.000 = 743.198
Effectif visé pour l'échantillon: 4500
Probabilité globale de sondage: 4500/743.198 = 0,006055 = 1 sur 165,2.
BASE DE SONDAGE
On distingue généralement 5 régions économiques au Togo. Quant au découpage administratif, il y a 21 préfectures, dont chacune est constituée d'une commune urbaine et d'un certain nombre de cantons (parfois appelés "secteurs"). Au moment du recensement il y avait 171 cantons: aujourd'hui il y en a bien plus.
Le milieu urbain est défini comme l'ensemble des chefs lieux de préfectures. Ces 21 villes constituaient à l'époque du recensement 25 % de la population (dont Lom6 toute seule: 14%). Ces pourcentages auraient augmenté depuis cette époque. Les villes se divisent en quartiers, qui correspondent en quelque sorte aux cantons ruraux.
Les cantons se divisent en villages. Au sein de certains villages (moins de 20 % des cas) on a distingué le village central, les hameaux dénomm6s individuellement, et les fermes (groupées). Le recensement fournit un chiffre de population pour chacune des unités mentionnées jusqu'ici, lorsqu'elle est distinguée.
En parallèle avec le découpage en villages, le recensement a élaboré un découpage en zones de dénombrement (ZD). Un village peut contenir plusieurs ZD, ou une ZD peut englober plusieurs villages. Les ZD ont été définies également en milieu urbain. Une ZD peut (malheureusement) croiser les limites d'un quartier urbain, mais jamais d'un canton rural.
Pour les ZD urbaines, par contre, bien qu'elles soient identifiées par un code (et 2 chiffres) dans le fichier informatique, aucune donnée n'a été publiée et on n'en a jamais élaboré une liste. Différemment des codes-villages, les codes-ZD ont été désignés en principe sur une base géographique, de façon à ce que deux ZD portant des numéros consécutifs soient généralement limitrophes.
Nous examinons ensuite le problème de la cartographie. La situation en est différente selon qu'il s'agit des villes ou des zones rurales.
PARAMETRES DE L'ECHANTILLONNAGE
Nous avons déjà vu que la probabilité globale prend la valeur 1/165,2. Comment doit-on repartir cette probabilité entre les deux degrés de sondage? Les analyses des variances et des coûts menées après les enquêtes analogues (EMF et EDS) dans d'autres pays africains indiquent que le nombre optimal de femmes à enquêter serait de l'ordre de 35 par UA dans le milieu rural et la moitié en milieu urbain.
Si on suppose un taux annuel d'accroissement de 4,4 % pour le milieu urbain on obtient l'estimation suivante quant à la population urbaine en mai 1988:
684.121 x (1,044) exp 6,5= 905.078 ce qui correspond à 27,6 % de la population totale à cette date.
Si le taux global de sondage est le même partout et la taille moyenne des UA est la même en milieu urbain et rural, on doit doubler le taux du ler degré en milieu urbain afin d'y tirer 2 fois moins de femmes par UA.
Le tirage peut être fait par sondage systématique (c'est-à-dire en tirant à un intervalle I constant dans la liste à partir d'un premier nombre aléatoire choisi entre 1 et I). L'intervalle de sondage sera, dans chaque cas, l'inverse de la probabilité, il reste d'ailleurs le même qu'il s'agisse des UA mises-à-jour ou des ZD du recensement.
La valeur de M, doit être déterminée après avoir complété la scission des ZD supérieures å 1200 et le regroupement de celles inférieures à 600. (Rien n'empêche d'utiliser les mêmes chiffres limites ici pour les 4 grandes villes et pour les 17 moins grandes, m8me si pour le ler groupe il s'agit des populations de 1986 et pour le 2ème groupe de 1981).
Encore une fois le tirage se fera par la méthode systématique: cependant pour le tirage au ler degré on tire dans la colonne des cumuls des Ni, avec l'intervalle N/87, alors qu'au 2ème degré on tire dans la liste des ménages dénombrés, avec l'intervalle qui est l'inverse de P2i, calculé pour chaque i.
Il faut bien noter que, pour déterminer la valeur N r il faudra éliminer du total rural initial de 2.035.446, les populations recensées dans les anciennes zones périphériques des 4 grandes villes, qui ont été ajoutées à ces villes lors de leur mise-à-jour.
CHOIX DES UNITES AREOLAIRES
Nous traiterons d'abord du cas urbain. Nous avons déjà vu qu'on dispose pour les 4 grandes villes des 7_,D renouvelé, es, et pour les 17 autres villes des ZD de 1981. Ces unités sont bien délimitées et très homogènes en matière de taille. Elles correspondent donc très bien aux besoins de l'enquête comme unités de sondage aréolaire.
Le cas du milieu rural est plus difficile. A première vue on devrait échantillonner les villages, ceux-ci Etant au moins repérables sur le terrain. . Cependant ils présentent deux inconvénients majeurs:
1. Ils sont excessivement variables en matière de taille et
2. Ils ne sont pas distingués en général des hameaux ni des fermes au sein du fichier informatique. Or un village qui a une population de moins de 150 au recensement aura une probabilité Pzi supérieure à 1, ce qui est inadmissible. Afin de nous donner une marge de sécurité nous proposons que chaque UA qui ne dépasse pas 300 habitants au recensement soit regroupé avec un autre. Mais comment peut-on regrouper les villages voisins si on ne sait pas où se trouvent chaque village? Rappelons que les codes-villages sont alloués selon l'ordre alphabétique au sein du canton, plutôt que selon la situation sur la carte. Le seul élément qui permet de savoir quels villages sont rapproches les uns des autres est le fait qu'ils appartiennent à la même ZD. La ZD, bien qu'elle ne soit définie sur aucune carte, possède au moins cet avantage qu'elle repr6sente un groupement physique de villages en fonction de leur proximité.
C'est ce raisonnement qui nous a amené à commander un listing informatique sur la base suivante. Le premier critère serait la ZD, ordonnée selon le numéro de code au sein du canton. Pour chaque ZD on donne la liste des villages qu'elle contient, c'est-à-dire chaque village dont le nom figure sur un questionnaire quelconque classe dans la ZD. Malheureusement le fichier informatique n'a jamais distingué les hameaux, ni les fermes, des villages centraux et des villages proprement dits. Chacune de ces entités est donc sortie sur la liste comme une ligne sans distinction. Enfin pour chaque ligne on a demandé la population recensée ainsi que le cumul des populations du début jusqu'à la fin de la liste. Une ligne de ce listing constitue donc une intersection de deux ensembles: les ZD d'une part et les villages/hameaux/fermes d'autre part. Autrement dit, c'est la partie d'un village (ou d'un hameau ou d'une ferme) qui se situe dans une ZD.
Au premier abord, on tirera un échantillon de villages. Ceci se fera par tirage systématique dans la colonne des cumuls. On tombera sur une ligne donnée: on lit le nom du village: on cherche ce nom également dans toutes les autres ZD du même canton et on réunit ainsi les différents morceaux, en additionnant leurs populations pour obtenir la taille Ni. Mais comment regrouper les villages trop petits? La meilleure solution semble être la suivante: si le village choisi ne dépasse pas le seuil de 300 on prendra l'ensemble de la ZD dans laquelle il se trouve. (Toutes les ZD dépassent 300). Plus exactement, puisque les ZD ne peuvent être reconnues sur les cartes, on prendra l'ensemble des villages qui figurent sur la liste dans la ZD. Mais avant de faire cela il faudrait que les multiples répétitions d'un même village soient regroupées sous une seule ZD. On examinera donc d'abord ces répétitions et on reclassera le village entièrement dans la ZD qui contient le plus grand morceau de ce village.
Un problème reste encore. D'après ce qu'on vient de dire, un village qui dépasse 300 sera choisi en tant que tel, alors que s'il est inférieur à ce seuil la ZD entière sera prise. Mais avec ce système' un village de plus de 300 aura deux chances d'être représenté: l'une vient de ce qu'il peut être tiré lui-même (probabilité kNj ) et l'autre qu'un autre village, d'une mille inférieure à 300, mais dans la même ZD peut être tiré (probabilité kNj ). On doit donc changer les règles: on dira que, s'il existe même un seul village dans la ZD qui ne dépasse pas le seuil on prendra l'ensemble de la
ZD quel que soit le village tiré. Notons à propos que cette règle éliminera le problème des petits hameaux et fermes. A l'autre extrémité, il faut fixer une limite supérieure en ce qui concerne les UA car, autrement, le coût du dénombrement pourrait croître pratiquement sans limite. Vue l'absence quasi- totale de cartes qui permettraient de découper les villages nous proposons un niveau élevé pour cette limite, soit 3000. Au-delà de cette limite on doit donc trouver le moyen de découper une UA tirée. Si on ne trouve pas de carte on sera obligé d'en créer une sur le terrain. Quant au nombre de segments à créer dans des telles UA, nous proposons une formule simple. Soit Ti la population recensée pour cette UA. On examinera le chiffre de gauche dans Ti (c'est-à-dire le chiffre des milliers). Appelons ce chiffre C. On doit alors définir C segments, de taille approximativement égaie. On adoptera pour le calcul de p2 la valeur Ni = Ti/C pour la taille du segment.