«Think big!» (ou le potentiel du big data)
Notre Elvis Gratton national ne croyait pas si bien dire… «Think big», c’est exactement ce vers quoi nous conduit le «big data».
Qu’est-ce que le big data?
En français données volumineuses ou données massives, le big data est «l’ensemble des données produites en temps réel et en continu, provenant de sources hétérogènes de différents formats, dont la croissance est faramineuse» (source). On le caractérise généralement par les 3 «v», soit volume, vitesse et variété. Certains y ajoutent d’autres «v» comme la véracité, ou encore la validité et la valeur.
Selon IBM, le monde génèrerait chaque jour 2,5 trillions d’octets de données :
Chaque jour, nous générons 2,5 trillions d’octets de données. À tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d’images numériques et de vidéos publiées en ligne, d’enregistrements transactionnels d’achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources.
Selon Gartner, le big data devrait générer pas moins de 4 millions d’emplois, mondialement, au cours des prochaines années. Et tenez-vous bien, on attribue même au big data un rôle significatif dans la victoire d’Obama aux élections de 2012.
Quel est l’intérêt du big data en recherche marketing?
Des données objectives sur les comportements des consommateurs, voilà tout l’intérêt du big data.
- Si vous êtes un utilisateur de Google (qui ne l’est pas?), pensez juste un instant à tout ce que le géant connaît sur vous : les sites que vous visitez, les articles que vous achetez, les publicités qui vous allument…
- Un autre exemple? Votre carte de crédit, bien sûr! Pour peu que vous l’utilisiez, votre prêteur connaît vos habitudes d’achat, de voyage d’alimentation, vos loisirs…
- Et que dire de Facebook, qui voit littéralement défiler votre vie sous ses yeux?
Ces compagnies (et bien d’autres) recueillent des milliers de données sur les comportements et les habitudes de la population. À l’heure où les taux de réponse des sondages connaissent une baisse drastique et où on voit pulluler les sondages non scientifiques, l’exploitation du big data est une voie d’avenir porteuse pour la recherche marketing.
L’exemple de Netflix, qui a utilisé le big data pour concocter une télésérie exclusive (House of Cards) est particulièrement intéressant.
N’exploite pas le big data qui veut!
Bien sûr, l’exploitation du big data comporte son lot de défis. Par exemple :
- Le repérage et l’accès aux données pertinentes. C’est bien beau vouloir exploiter toutes ces belles données, mais sont-elles disponibles? Où et à quel prix?
- L’éthique et la protection des renseignements personnels. Jusqu’où peut-on aller dans l’exploitation de ce type de données sans attenter à la vie privée des individus? Tout un débat éthique en perspective…
- Des compétences poussées. L’exploitation intelligente du big data requiert sans aucun doute un savant mélange de connaissances et de compétences en informatique, technologie, mathématiques, statistique… doublées d’un profil de chercheur. Vous vous reconnaissez?
- Des systèmes adéquats. Oubliez Excel… il faut des systèmes autrement plus puissants pour exploiter une quantité phénoménale de données!
Tout le monde en parle, mais…
Si le big data est sur toutes les lèvres depuis quelque temps déjà, son utilisation concrète en recherche marketing semble se faire discrète, à tout le moins du point de vue des fournisseurs de services de recherche.
D’aucuns jettent d’ailleurs l’éponge, plaidant plutôt pour l’utilisation du «mid data», soit un compromis entre la recherche traditionnelle (small data) et le fameux big data.
Et vous, qu’en pensez-vous?
5 réponses à “«Think big!» (ou le potentiel du big data)”
Vraiment intéressant Julie! si vous avez le temps cela vaut la peine de lire les articles concernant le rôle du Big Data dans la victoire d’Obama aux élections de 2012 et celui de la production de House of Cards. Je suis moi-même un fan fini de House of Cards (la 2e saison sera diffusée au début de 2014!). Je semble donc être plus prévisible que je l’espérais…
Sérieusement, cela semble une avenue prometteuse pour le futur, mais ça restera probablement un outil parmi d’autres dans notre domaine.
Merci Julie, Intéressant sujet en effet et d’actualité certaine! Dans ce même esprit, j’ai déjà croisé des données de StatCan avec des données du DGEQ dans le cadre d’un projet de recherche en 1999 pour l’Observatoire de l’ENAP. Avec des « big data » plus détaillées les corrélations dégagées auraient pu être encore bien plus raffinées pour expliquer les liens statistiques entre les attributs de la population et leurs choix électoraux!
En ce sens, certaines sources laissent entendre également que la victoire du Parti conservateur du Canada aux élections fédérales de 2011 s’appuyait sur une même technique de croisement des méta-données :
Ethnic riding targeting key to Conservatives’ 2011 victory
http://www.cbc.ca/news/politics/ethnic-riding-targeting-key-to-conservatives-2011-victory-1.1142511
On the Backs of Immigrants? Conservative Politics and New Canadian Voters
http://www.cpsa-acsp.ca/papers-2012/Taylor.pdf
Merci pour ton commentaire et pour les références Érick, je vais les consulter attentivement!
Merci à toi de m’avoir mis sur la piste!
L’article de Taylor est vraiment très intéressant et je le recommande à ceux qui s’intéressant aux statistiques et à leur utilisation. Il décortique les aspects démographiques et stratégiques de la stratégie électorale du Parti conservateur du Canada à l’élection de 2011.
L’approche retenue, axée sur l’analyse de la segmentation d’un marché complexe (dans ce cas-ci, un marché politique) et l’identification de cibles critiques sur lesquels intervenir (« key turn points ») pour maximiser un changement optimal à effort minimal, dans l’esprit du point d’équilibre de Nash
, peut tout aussi bien être extrapolée en sciences politiques qu’économie, en marketing ou en épidémologie.
Pour un scientifique, c’est moins l’aspect politique du sujet étudié qui est intéressant que de comprendre comment l’application méticuleuse d’une stratégie très ciblée, basée sur des données probantes (les données statistiques démographiques), a permis un résultat spectaculaire à l’échelle d’un pays en agissant sur quelque vingt districts électoraux.
Une stratégie semblable pourrait être adoptée sous la forme d’un programme public pour à peu près n’importe quel sujet, de la prévention du suicide au décrochage scolaire en passant par le développement d’entreprises et la prévention de l’alcool au volant. Brillant!
La bibliographie de l’article est également excellente.
Les grosses bases de données constituent sans doute une source d’information intéressante et actuellement sous-exploitée, pas seulement en recherche marketing.
Toutefois, comme le mentionne Julie, l’exploitation de telles bases de données requiert une expertise poussée en informatique (pour extraire les données) et en statistique (pour les traiter).
À cet égard, l’article de Taylor constitue un cas intéressant. Étant statisticienne et géographe, j’ai lu l’article en question avec grand intérêt. L’objectif de l’étude est intéressant et les données semblent fiables et liées à la variable d’intérêt. De plus, comme le souligne M. Bouchard, la stratégie pourrait être appliquée à une multitude de sujets. J’ai toutefois quelques réserves quant au traitement statistique des données.
La variable réponse, telle que définie par les auteurs, est la proportion des votes pour un parti donné dans une région de recensement donnée. Les auteurs modélisent le lien entre cette proportion et les variables explicatives avec une régression des moindres carrés ordinaires (ordinary least square regression, OLS).
Ce type de régression, très simple et (trop) fréquemment utilisé, est approprié lorsque la variable réponse est une variable continue distribuée normalement. Le concept de normalité des données est assez élastique et dans bien des cas, on peut supposer la normalité sans trop se tromper. Ce n’est toutefois pas le cas avec les proportions. En effet, les proportions doivent plutôt être modélisées avec une régression logistique ou une régression de Poisson, deux méthodes qui nécessitent des connaissances en statistique un peu plus avancées et dont l’interprétation est assez différente de celle de la régression des moindres carrés ordinaires.
Bref, l’idée des auteurs est bonne et l’article est intéressant. Malheureusement, la méthode utilisée pour traiter les données n’est pas appropriée et, conséquemment, il serait hasardeux de se baser sur ces résultats pour tirer quelconque conclusion. Dommage!
Si vous avez ce genre de données à traiter, je peux vous conseiller!