La pondération des données
Lorsqu’on lit la méthodologie d’un sondage, on remarque souvent la phrase suivante (ou son équivalent) : «Les données ont été pondérées pour refléter les caractéristiques de la population à l’étude…». Et si on s’arrêtait un instant à cette fameuse pondération? Évidemment, je simplifie grandement le concept à des fins de compréhension.
Qu’est-ce que la pondération? Pourquoi pondérer les données?
La pondération des données consiste à accorder un coefficient de pondération (un poids) à chacun des individus d’un échantillon. L’objectif premier de l’exercice est de corriger la représentativité de l’échantillon en fonction de certaines variables clés afin d’être en mesure d’extrapoler les résultats du sondage à la population.
Exemple
- Prenons une population qui compte 10 000 individus et un nombre égal d’hommes et de femmes.
- Disons maintenant qu’on fait un sondage avec un échantillon de 1000 individus et, qu’à cause de certains facteurs (ex. : taux de réponse, stratification), on obtient 800 femmes et 200 hommes.
- On constate un déséquilibre, pour la variable «sexe», entre l’échantillon et la population : chaque homme de l’échantillon représente 25 hommes de la population (5000/200) alors que chaque femme de l’échantillon représente 6,25 femmes de la population (5000/800).
- On appliquera donc un coefficient de pondération qui aura pour effet de donner plus de poids aux réponses des 200 hommes (et moins à celles des femmes), et ce, afin de corriger le déséquilibre.
Les variables de pondération
Les variables qu’on utilisera pour pondérer les données d’un échantillon dépendent des caractéristiques de la population à l’étude.
Pour un sondage auprès de la population québécoise par exemple, la distribution des principales variables sociodémographiques sera examinée (ex. : âge, sexe, scolarité, nombre d’individus par ménage) et, s’il y a déséquilibre par rapport aux caractéristiques connues de la population, on appliquera le coefficient de pondération approprié. Ainsi, le poids qu’on attribue à un individu de l’échantillon correspond au poids que cet individu représente dans la population.
Note importante : La pondération ne compense pas une méthode d’échantillonnage inappropriée. Si, à la base, on ne dispose pas d’un échantillon probabiliste constitué dans les règles de l’art, la pondération ne peut pas prétendre rendre un échantillon représentatif.
4 réponses à “La pondération des données”
Merci pour cet article instructif et surtout pour la pertinence de la note importante de mise en garde (si moyen de la mettre en Gras – rouge – police de caractère de 20 points)
au sujet de la pondération J’ai une question, si dans mon échantillon le déséquilibre concerne plusieurs variable comment proceder pratiquement, l’exemple cité dans le bloc ne traite que du cas d’une variable le sexe
merci
@LEE: Je me permet de répondre à votre question en attendant une meilleure réponse de la part de l’auteure:
Les coef de pondération qu’on applique, peuvent tenir compte de plusieurs variables à la fois. Il faut juste s’assurer de calculer le coef adéquat comme bien expliqué plus haut » le poids qu’on attribue à un individu de l’échantillon correspond au poids que cet individu représente dans la population. »
Par exemple advenant le cas de deux variables AGE et SEXE (pour faire simple), on observe dans notre population étudiée 15% de FEMMES (variable 1) ÂGÉES de 25-34 ANS (variable 2), il faut ramener l’échantillon de la collecte pour ce segment spécifique à son poids (15%) dans la population.
Bien évidement pour pouvoir faire ainsi, il faut disposer d’une table de données socio-démo de notre population croisées selon ces deux variables (AGE x SEXE)
Merci beaucoup pour les éclaircissements. Je suis dans le domaine de l’eau, je vous évaluer un secteur selon ses réalisations avec des indicateurs exprimés différemment (en valeur monétaire($), en quantité (m3), en nombre,… comment faire évaluer?