Publié par Vincent Bouchard le 8 août 2011

Déterminer la taille optimale d’un échantillon

Échantillon-Spaghetti2Plusieurs clients nous demandent quelle est la taille optimale pour que leur échantillon de répondants soit représentatif de la population. Au risque d’en choquer certains, je leur réponds invariablement « 30 », pourvu qu’il s’agisse d’un échantillon probabiliste.

En effet, la statistique nous apprend qu’un échantillon de moins de 30 répondants ne vaut rien… Mais qu’à partir de 30, tout baigne. Alors d’où vient cette obsession de toujours vouloir interroger 400, 500 voire 1 000 répondants?

30, un chiffre «magique»?

Bien que techniquement, un échantillon de 30 répondants sélectionnés de manière probabiliste soit effectivement représentatif d’une population donnée, les résultats issus de cet échantillon souffriront d’une grande imprécision. D’où l’intérêt d’augmenter les tailles d’échantillon, particulièrement dans les cas où on souhaite un niveau de précision élevé par segment de marché.

Mais attention, votre enthousiasme pour les gros échantillons sera vite tempéré par des considérations budgétaires. En effet, bien qu’un échantillon de 1000 répondants soit deux fois plus coûteux (ou à peu près) qu’un échantillon de 500 répondants, il n’est pas deux fois plus précis. Il faut en fait quadrupler la taille d’un échantillon pour voir diminuer de moitié la marge d’erreur. C’est donc un pensez-y-bien!

La taille de l’échantillon dépend du niveau de précision souhaité

Mais revenons à l’échantillon représentatif de 30 répondants. En pratique, le strict minimum que l’on recommande à nos clients est généralement autour de 100. Au-delà de ce seuil, les tailles d’échantillon dépendent de la valeur que l’on accorde au niveau de précision accru que l’on obtient et à la présence ou non de segments de marché pour lesquels on veut obtenir un niveau de précision acceptable.

Quant à l’impact de la taille de la population sur la taille de l’échantillon, oubliez les rumeurs qui circulent à ce sujet. Dans des contextes de grandes populations (ex. : le Canada ou les États-Unis), la taille de la population n’a aucune incidence perceptible sur la taille de l’échantillon, pourvu que l’échantillon soit constitué au hasard (échantillon probabiliste). C’est pourquoi les sondages politiques, par exemple, sont généralement effectués avec 1 000 répondants, peu importe de quel côté de la frontière.

Pour vous convaincre de cette grande vérité, considérez l’exemple culinaire suivant. Lorsque vous cuisinez des pâtes pour un groupe de 8 personnes, vérifiez-vous la cuisson d’une plus grande quantité de pâtes avant de les servir que lorsque vous cuisinez seulement pour vous?

* Vincent Bouchard est vice-président Marketing chez SOM.

À lire aussi :

10 Commentaires sur “Déterminer la taille optimale d’un échantillon”

  1. Audrey Paradis

    Vincent,
    J’adore cette analogie avec les pâtes! Il va falloir que je m’en souvienne. Combien de fois j’ai eu à expliquer « cette grande vérité » à des clients internes…
    Vos billets sont toujours très intéressants. Bravo!
    Audrey

  2. Gheorghita

    Cher Vincent,

    Je vous en remercie pour votre article.
    Cependant, puis-je me permettre de vous demander les références bibliographiques ?
    Je suis enseignante et j’aimerais apporter ce plus aux étudiants (la preuve qu’un échantillon de 30 répondants est représentatif).
    D’avance je vous en remercie,

    Gheorghita

  3. Vincent Bouchard

    Salut Audrey!

    Merci pour ton commentaire. Ça nous encourage à continuer. Je comprends que des trucs mnémotechniques pour aider à retenir les analogies seraient aussi les bienvenus :)

  4. Vincent Bouchard

    Bonjour Gheorghita,

    Merci pour votre intérêt. D’abord, il faut avant tout que l’échantillon soit probabiliste, sinon les lois de la statistique ne peuvent tout simplement pas s’appliquer. Le seuil de 30 prend sa source dans le théorème de la limite centrale, pour lequel vous trouverez des explications sommaires ici:

    http://www.er.uqam.ca/nobel/r30574/PSY1300/C6P5.html

    et plus détaillées ici:

    http://math.unice.fr/~diener/StatL2/COURS3.pdf

    J’espère que ces liens vous seront utiles.

    Vincent Bouchard

  5. Gheorghita

    Bonjour Vincent,
    Je vous remercie beaucoup pour votre prompte réponse qui est bien étayée.
    Puis-je me permettre de revenir vers vous avec un cas de figure ?
    Voici de quoi s’agit-il : mes étudiants doivent réaliser un travail de fin d’études, évidemment avec enquête à l’appui dans deux départements hospitaliers comportant chacun une quinzaine de sujets, donc trente sujets au total.
    Ils doivent entre autres justifier le fait que cet échantillon est représentatif et que des décisions de politique d’organisation peuvent prises au sein des institutions concernées.
    Comment l’appréhenderiez – vous ?
    Merci pour votre réponse et aide.
    Gheorghita

  6. Gheorghita

    Bonjour Vincent,

    N’ayant plus de vos nouvelles, puis-je me permettre de vous demander si vous reprenez le collier professionnel bientôt?

    D’avance je vous en remercie pour votre réponse,

    Gheorghita

  7. Véronique Tremblay

    Petites précisions :
    1- Le théorème central limite stipule qu’on peut sans trop se tromper supposer que la moyenne de variables aléatoires identiquement distribuées suit une loi normale, et ainsi utiliser l’approximation normale pour calculer les intervalles de confiance. Ce théorème n’est toutefois en rien relié au caractère représentatif ou non de l’échantillon, qui dépend davantage de la stratégie d’échantillonnage.

    2- Le nombre 30 est ce que l’on appelle une «règle du pouce» et n’a, à ma connaissance, aucun véritable fondement mathématique; elle découle possiblement du fait qu’à partir d’un échantillon de taille 30, la distribution de Student est à peu près équivalente à la distribution normale.

  8. Sophie22

    Bonsoir Vincent!
    Mon échantillon ne comprend que 20 sujets (micro-échantillon). Je travaille en effet sur une population extrêmement rare. Quelle doit être la marge d’erreur?
    Je vous remercie d’avance.

  9. F. G.

    Je suis très dubitatif sur l’analogie avec la cuisson des pâtes. Je pense même que la cuisson n’est pas uniforme à cause notamment des mouvements de convection. La température n’est pas uniforme dans un récipient chauffé par le bas, et la distribution de la température et des flux est très particulière. Cet effet pourrait être négligeable dans une petite casserole mais notable dans une grande marmite.

    Imaginions que l’on cuisine dans une casserole de 10m de diamètre posée sur un gros feu. Est-ce que les pâtes posées au fond cuiraient à la même vitesse que celles situées à mi-hauteur à 3m des parois ? J’en doute.

  10. Julie Fortin

    Il faut prendre les analogies pour ce qu’elles sont, c’est-à-dire des images, certes imparfaites, mais qui permettent de mieux comprendre le propos. Ce n’est pas un cours de cuisine…

Laisser un commentaire