Veille Internet et big data

big data bolero

En s’intéressant à la veille du web social dès 2004 (celui-ci se limitant à l’époque aux forums, newsgroups et sites d’avis de consommateurs), Bolero s’est d’abord tourné vers la recherche sociologique pour l’interprétation des données sociales. Mais, alors que Bolero était confronté très tôt à la problématique de la masse des données, les chercheurs en sciences sociales ont contourné ce problème.


Entre analyse sociologique et veille stratégique : une même matière première, deux approches différentes

L’intérêt de l’analyse des conversations spontanées en matière d’analyse sociologique est démontré depuis les années 1990 (voir [Granitz 1996]). Dès les premiers travaux sur les groupes de discussion Usenet, les chercheurs en sciences sociales ne soulèvent pas la question de la méthode d’extraction de ces données puisque l’exhaustivité est possible à l’époque. Ils s’inquiètent plutôt de la représentativité des personnes s’exprimant sur ces réseaux et par conséquent de la possibilité de généraliser les résultats (voir [Duffy 2002] et [Henri & al 2004]).

Voir la réponse de Bolero sur la question de la non représentativité de la veille.

Puis, avec la multiplication et la démocratisation de tous les supports d’expression lors de l’avènement des média sociaux et des réseaux sociaux, le milieu académique aurait pu se pencher sur le problème de la représentativité des données extraites du web. Mais il a contourné le problème puisque la plupart des travaux de recherche utilisent des corpus fermés, limités dans le temps et surtout à un type de source (Facebook, Twitter, forum audiovisuel…), voir [Ku & al 2006], [Johnstone & al 2009] et [Smith & al 2011].

La nature des sources conditionnant fortement le profil de population, à la différence de ces chercheurs, il nous a été chez Bolero indispensable de pouvoir collecter les traces numériques de l’ensemble des sources d’expression du web. Or l’augmentation exponentielle du volume de données a complexifié évidemment les analyses, nous obligeant dès 2006 de passer d’une approche très qualitative sur la perception exprimée par une minorité d’experts et de passionnés à une approche quantitative traitant l’opinion de la masse. C’est cette divergence d’objectifs et de besoin sur le corpus entre nos travaux et ceux des chercheurs en sciences sociales qui explique sans doute le caractère finalement très récent de ce type de recherche dans le milieu académique.

Le recours aux technologies big data

Nous sommes aujourd’hui au début d’une nouvelle ère où l’on va chercher à faire émerger des comportements pertinents à l’intérieur d’un ensemble de conversations devenu trop vaste pour être étudié manuellement. L’analyse de Tommaso Venturini dans [Venturini 2012] est très illustrative de notre propre analyse :

« (…) Les données sont là, mais il faut disposer d’outils d’analyse à la hauteur de leur abondance et pour cela les sciences sociales sont encore largement démunies. Face aux nouvelles données numériques les méthodes traditionnelles se révèlent complètement inadéquates. Développées dans une époque de pénurie [de données], ni les méthodes quantitatives, ni les méthodes qualitatives ne semblent capables de gérer le déluge de traces numériques. »

Le recours à l’échantillonnage reste pertinent pour l’analyse fine et qualitative, par exemple sur la veille sur un secteur donné (le tourisme, le pneumatique, l’habitat…), nécessitant un enrichissement important de la donnée brute et une valeur statistique des données pour pouvoir les comparer entre elles. En revanche, pour la compréhension de mouvements d’opinion de masse, de tendances comportementales en temps réel, seule l’arrivée des technologies big data combinées à l’informatique décisionnelle permettent d’interpréter correctement les données de veille marketing.


 

loupeEN SAVOIR PLUS

L’exhaustivité de la veille numérique

La représentativité de l’opinion dans la veille Internet

Enquête d’opinion à l’épreuve des Big Data

Les influenceurs : qui sont-ils ?

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Fields marked with an asterisk are required.