Étiquette : statistique

«Think big!» (ou le potentiel du big data)

«Think big!» (ou le potentiel du big data)

Big DataNotre Elvis Gratton national ne croyait pas si bien dire… «Think big», c’est exactement ce vers quoi nous conduit le «big data».

Qu’est-ce que le big data?

En français données volumineuses ou données massives, le big data est «l’ensemble des données produites en temps réel et en continu, provenant de sources hétérogènes de différents formats, dont la croissance est faramineuse» (source). On le caractérise généralement par les 3 «v», soit volume, vitesse et variété.  Certains y ajoutent d’autres «v» comme la véracité, ou encore la validité et la valeur.

Lire la suiteLire la suite

Premières données du recensement 2011

Premières données du recensement 2011

Recensement3Vous souvenez-vous de la controverse suscitée en 2010 par la fin du recensement obligatoire (version longue)? Quoi qu’il en soit, Statistique Canada diffuse aujourd’hui les premières données issues du recensement 2011. Elles portent sur les chiffres de population et des logements.

Voici quelques faits saillants tirés du rapport La population canadienne en 2011 : effectifs et croissance démographique :

Lire la suiteLire la suite

Niveau de confiance des résultats : lequel utiliser?

Niveau de confiance des résultats : lequel utiliser?

Pourcentage2Le niveau de confiance, aussi appelé seuil de confiance, détermine l’intervalle de confiance et donc la marge d’erreur d’un résultat de sondage.

Les niveaux de confiance les plus souvent utilisés en statistique sont 90 %, 95 % et 99 %. Plus le niveau de confiance est élevé, plus la marge d’erreur associée aux résultats sera élevée. Logique, non?

En effet, pour être sûr à 99 % qu’un résultat provenant d’un échantillon se situe dans un intervalle qui contient la valeur que l’on retrouverait en réalité dans la population, cet intervalle doit être plus grand (et donc la marge d’erreur plus élevée) que si on est sûr à seulement 90 %. Mais lequel choisir?

Lire la suiteLire la suite

Déterminer la taille optimale d’un échantillon

Déterminer la taille optimale d’un échantillon

Échantillon-Spaghetti2Plusieurs clients nous demandent quelle est la taille optimale pour que leur échantillon de répondants soit représentatif de la population. Au risque d’en choquer certains, je leur réponds invariablement « 30 », pourvu qu’il s’agisse d’un échantillon probabiliste.

En effet, la statistique nous apprend qu’un échantillon de moins de 30 répondants ne vaut rien… Mais qu’à partir de 30, tout baigne. Alors d’où vient cette obsession de toujours vouloir interroger 400, 500 voire 1 000 répondants?

Lire la suiteLire la suite

Le vin et la statistique… qui l’eut «cru»?

Le vin et la statistique… qui l’eut «cru»?

Bouteille-vin2Vous aimez les grands crus? Vous vous fiez au jugement des experts pour choisir une bonne bouteille? Vous êtes attiré par les vins médaillés? Sachez alors qu’un statisticien a montré que l’évaluation des vins par les experts n’était pas très différente… du hasard!

Je vous invite à lire cet article de Leonard Mlodinow paru dans le Wall Street Journal un peu plus tôt ce mois-ci… Comme quoi la statistique est utile dans tous les domaines!

Pour faire une histoire courte, le statisticien Robert Hodgson, professeur retraité de la Humboldt State University et propriétaire d’un petit vignoble, s’est demandé pourquoi un vin pouvait gagner une médaille dans une compétition et être déchu dans une autre… Il n’en fallait pas plus pour qu’il étudie la question d’un point de vue statistique. Ses conclusions ont fait l’objet de deux articles dans le Journal of Wine Economics.

Voici quelques-unes de ses observations :

Lire la suiteLire la suite

Taux d’utilisation d’Internet : le Québec sous la moyenne canadienne

Taux d’utilisation d’Internet : le Québec sous la moyenne canadienne

Qui dit sondage Web ou sondage en ligne dit également «répondants branchés»! Le choix d’utiliser un sondage Web comme outil de collecte des données requiert en effet que les répondants aient accès à Internet et soient aptes à répondre à un sondage en ligne.

Dans son Bulletin de l’analyse en innovation de juin 2009 (PDF), Statistique Canada publie un article sur L’utilisation d’Internet : comparaison internationale et interprovinciale. Voici quelques données.

Lire la suiteLire la suite

20 questions qu’un journaliste devrait poser…

20 questions qu’un journaliste devrait poser…

…avant de publier les résultats d’un sondage!

C’est le titre d’un article de Sheldon R. Gawiser et G. Evans Witt, du National Council on Public Polls, dont j’ai pris connaissance via le blogue de MarketResearch.

J’en ai déjà parlé, il arrive que les journalistes publient n’importe quoi en matière de sondage. Les questions qu’on retrouve dans cet article visent justement à aider les journalistes : ont-ils entre les mains un sondage scientifique? Doivent-ils rapporter les résultats de tel sondage?

Lire la suiteLire la suite

La qualité des données : six dimensions importantes

La qualité des données : six dimensions importantes

Je bouquinais au bureau, toujours à l’affût d’un nouveau thème à traiter dans ce blogue, quand je suis tombée sur un texte de Gordon Brackstone*, ancien statisticien en chef adjoint à Statistique Canada.

L’auteur traite des six dimensions qu’il juge importantes pour assurer la qualité des données :

  1. L’exactitude
  2. La pertinence
  3. L’actualité
  4. L’accessibilité
  5. L’intelligibilité
  6. La cohérence

Ça vaut la peine de s’y attarder. Bien que l’auteur fasse référence à la gestion d’un bureau de statistique gouvernemental (BSG), les dimensions retenues s’appliquent tout autant à une maison de sondage. Je vous les décris en quelques mots, en adaptant parfois les propos de M. Brackstone à la réalité d’une firme comme SOM.

Lire la suiteLire la suite

Qu’est-ce qu’une différence statistiquement significative?

Qu’est-ce qu’une différence statistiquement significative?

C’est bien connu, les sondeurs utilisent la statistique pour analyser les résultats d’un sondage. Le calcul de la marge d’erreur en est un exemple.

Et il y a aussi les «différences statistiquement significatives»… On entend souvent l’expression, mais ça veut dire quoi, au juste? Qu’est-ce que ça implique pour les autres différences, celles qui ne sont pas «statistiquement significatives»?

Lire la suiteLire la suite

Les mathématiques citoyennes

Les mathématiques citoyennes

Grâce à mon collègue Martin Noël, j’ai récemment découvert un petit bijou de livre intitulé Petit cours d’autodéfense intellectuelle publié aux éditions Lux en 2005. Écrit par Normand Baillargeon, professeur à l’UQAM, ce bouquin présente divers outils pour affiner la pensée critique. En d’autres mots, il invite le lecteur, dans sa vie citoyenne, à ne pas tout « gober » ce qu’il voit, lit ou entend, que ce soit dans son entourage, dans les médias ou encore dans les écrits dits scientifiques.

Si j’en parle dans le blogue de SOM, c’est que le livre comporte un chapitre sur ce que Baillargeon appelle les « mathématiques citoyennes ». Il y est question des notions élémentaires de statistique et de probabilités que toute personne devrait connaître pour éviter de se faire berner ou manipuler par des chiffres qui sont parfois, disons-le, « habilement » présentés. De fil en aiguille, l’auteur aborde évidemment le sondage et les différents pièges qu’il recèle pour qui est inattentif. Aux pages 165 à 167, il émet des « règles d’or » qui prennent la forme de questions à se poser pour évaluer la crédibilité des données qui nous sont présentées. Je prends la liberté d’en reproduire quelques-unes ici.

Lire la suiteLire la suite