Boissaye-Marine-M2MAG-mémoire

UNIVERSITE DE PARIS IV - SORBONNE
CELSA
Ecole des hautes études en sciences de l’information et de la communication
MASTER 2ème
année
Mention : Information et Communication
Spécialité : Management de la communication
« La Big Data entre mythes et réalités : quand l’idéologie technique
questionne l’identité personnelle »
Préparé sous la direction du Professeur Véronique RICHARD
Nom, Prénom : Boissaye, Marine
Promotion : 2013-2014
Option : management de la
communication
Soutenu le :
Note du mémoire :
Mention :

2
REMERCIEMENTS
Je remercie Madame Emmanuelle Lallement et Madame Véronique Richard, qui ont rendu possible
ce travail.
Je remercie Monsieur Florian Malaterre, mon tuteur académique, pour l’intérêt qu’il a manifesté
pour ce projet, ainsi que pour son suivi et ses suggestions avisées.
Je remercie Mademoiselle Mélanie Roosen, mon tuteur professionnel, de m’avoir accompagné
depuis les premières heures et jusqu’au bout de ma démarche.
Merci aussi à Camille et à Lucile pour leur soutien et leur curiosité.

3
RESUME
Depuis les années 2010, le « phénomène Big Data » a fait couler beaucoup d’encre. Il a été
tour à tour associé à l’image de Big Brother, à un âge d’or du marketing ou encore à une
« révolution du savoir ». De ces déclarations, il est difficile de discerner le vrai du faux, l’emphase
de la justesse. Ce travail se donne pour but de déconstruire le mythe afin de mieux analyser l’objet.
Pour parler d’une innovation technique qui touche le quotidien, l’angle choisi a été plus proche de
nous : celui de l’interaction de la Big Data avec l’individu. Au cœur de la Big Data se trouve en
effet les données fournies par les utilisateurs. Quelles sont les implications de la Big Data sur nos
identités personnelles ? Les trois hypothèses énoncées permettent de mieux comprendre les
interactions entre l’individu et les technologies de l’information et de la communication, à travers
une approche épistémologique du phénomène, une analyse des représentations et des imaginaires,
puis des limites dans les usages à fins commerciales.
Algorithme
Analytique
Big Data
Data-visualisation
Epistémologie
Identité
Individu
Internet
Marketing
Profilage
Science
Technique
Technologie
Webmarketing

4
SOMMAIRE :
Introduction…………………………………………………………………..p.6
I. Une « révolution du savoir annoncée » : une utopie à l’épreuve du
réel. p 10
A. Analyse des discours et représentations de la « Big
Data »………………………………………………………………….….p.11
1. Technologie et société
2. « La fin de la théorie » : analyse et déconstruction d’un discours utopique
B. Approche épistémologique : «l’ère du pétabyte» et ses conséquences sur la
méthode scientifique……………………………………………………...p.19
1. Les conditions de la « révolution du savoir » ?
2. L’algorithme, un système balancé entre idéologie technologique et logique capitaliste
C. Etude de cas : IBM. Un discours de marque qui façonne les représentations et
imaginaires de la Big Data…………………………………………..….p.26
1. L’entreprise, la marque et sa raison d’être
2. « Une planète plus intelligente », la technique au service du bien commun, analyse
d’un discours et d’une stratégie de marque
II. Les « empreintes digitales », facteur constituant des identités en ligne
p. 28
A. Le paradoxe de l’identité en ligne: entre protection et projection p.34
B. « Les empreintes digitales » ou l’identité par les traces………….p.38
1. Les corps statistiques
2. L’acceptation par la banalisation et autres jeux sociaux qui mettent en tension
l’identité
C. Analyse d’une structure informationnelle: de la foule à l’individu p.47
1. Le fantasme de la prédiction
2. La personnalisation mènerait-elle à la réification ?

5
III. Les limites du marketing personnalisé……………………………...p.53
A. Le marketing à la recherche d’un nouvel eldorado……………………p.53
1. Les promesses de l’essor de la Big Data et du perfectionnement des outils à
l’épreuve du réel
2. Le marketing par la « différenciation »
3. Le marketing intrusif
B. Recommandations : le consommateur-acteur………………………...p.66
1. Transparence et pédagogie pour redonner le pouvoir à l’utilisateur
2. La VRM, une nouvelle façon de penser la relation au consommateur
3. Une pensée de l’innovation
Conclusion………………………………………………………………….p.71

6
INTRODUCTION
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?
[Où est passée la sagesse que nous avons perdue avec la connaissance ?
Où est la connaissance que nous avons perdue avec l’information ?]
T.S. Eliot
Il est communément admis que l’avènement d’Internet a profondément bouleversé
les usages et pratiques de la société moderne, en faisant émerger de nouvelles opportunités et
nouveaux usages, avec leur lot de fantasmes et de représentations. Internet et les réseaux qui
en ont émergé sont souvent considérés comme des outils majeurs : outils de la nouvelle
démocratie participative ou de révolutions faites en ligne. Internet est une innovation du
quotidien, qui a pour force majeure de connecter les individus entre eux, créant ainsi une
nébuleuse de savoirs et connaissances. Le fonctionnement d’Internet est étroitement lié à celui
des utilisateurs, clé de voute de la structure informationnelle d’Internet. L’individu est
essentiel au fonctionnement du réseau, il le constitue. Mais cette vie en ligne n’a pas qu’une
existence sur les écrans. De leurs interactions en ligne, les individus laissent des traces, des
preuves de leur présence. L’analyse de ces traces est une science, une technique développée
ses dernières années par des data-scientists. Récupérées à des fins marchandes, ou à des fins
sécuritaires par les gouvernements, la Big Data est aujourd’hui très convoitée et attise désirs
et fantasmes. Alors que le nombre de données générées augmentent tous les jours, de plus en
plus d’attention est portée sur cette technique, de plus en plus d’investissements sont faits
dans les entreprises afin de collecter les données et d’en comprendre la plus-value.
Comment comprendre cet engouement ? En quoi la technologie associée à l’analyse des
données de masse est-elle une avancée, non seulement scientifique aux usages variées et aux
retombées diverses ?
Tracer les contours de l’objet technologique peut tout d’abord aider à la
compréhension du phénomène qui en résulte. Il s’agit tout d’abord d’identifier la nature et la
spécificité des données appartenant à la Big Data. Celles-ci sont généralement catégorisées

7
comme telles lorsqu’elles relèvent de trois critères, les trois « V », ou 3V. Cette grille de
lecture est établie en 2001 par Doug Laney.
Le premier V est celui du volume, c’est celui qui prime et donne son sens à l’expression
« big ». La Big Data est en effet d’abord caractérisée par « l’explosion du volume de données,
qui met à l’épreuve les infrastructures de stockage classiques des entreprises. » Cette
explosion est due à la multiplication d’innovations technologiques qui permettent ces flux de
données, de la carte bancaire, aux réseaux sociaux, jusqu’à l’Internet des Objets.
La deuxième richesse de la Big Data, c’est sa variété. Les données collectées provenant de
différentes sources et contenus variés, celles-ci contiennent différents types d’informations.
Les données peuvent être des données structurées (historique de ventes, géolocalisation…) ou
non-structurées (commentaires, textes, audio, vidéo). La multiplicité dans la nature des
données permet une compréhension fine d’un traitement.
La troisième caractéristique de la Big Data, c’est sa vélocité. Les progrès en analytique,
notamment les algorithmes auto-apprenants, permettent d’intégrer de la donnée « en
mouvement », non figée.
Ainsi, la Big Data est définie comme « un ensemble d’innovations technologiques qui
transforment profondément la façon dont les entreprises et les individus génèrent,
transmettent, stockent et utilisent des données : massification des échanges de données (vidéo,
texte, son, image), révolution dans le stockage (cloud-computing) et la structuration de
données (NoSQL), progrès des techniques d’analyse, progrès des outils de visualisation de
données… »1
. Cette définition met en valeur la composante technologique, et primordiale, de
l’objet Big Data. Mais la définition plus théorique avancée par les chercheuses Danah Boyd et
Kate Crawford met en lumière de manière plus fine les implications de la Big Data et présente
l’objet comme un phénomène complexe, jouant sur plusieurs tableaux et à plusieurs niveaux.
Nous définissons la Big Data comme un phénomène culturel, technologique, et universitaire,
qui repose sur l’interaction entre :
(1) La technologie : maximiser le pouvoir de l’ordinateur et la justesse des algorithmes afin
de rassembler, analyser, relier et comparer de larges sets de données.
(2) L’analyse : se plonger dans un set de données conséquent afin d’identifier des schémas
(patterns) qui permettent d’énoncer (de souligner) des faits économiques, sociaux, techniques
ou légaux.
1
Data Business,website “Big data definition” [disponible: http://www.data-business.fr/big-data-definition-
enjeux-etudes-cas/]

8
(3) La mythologie : la croyance répandue selon laquelle un set de données conséquent
offrirait une forme supérieure d’intelligence et de connaissance qui pourraient générer des
insights (perceptions) jusque-là imperceptible, augmenté d’une aura de vérité, d’objectivité et
de justesse. 1
Le triptyque technologie-analyse-mythologie est lourd de sens : la technologie est le
pilier de la Big Data, elle en est la matière. L’analyse, (quanti-quali) en est la condition sine
qua non, celle qui donne du sens aux chiffres et érige la technologie en outil, technico-social.
La mythologie qui y est associée nait à la fois du caractère très technique de l’outil et de ses
usages très variés et impactant une variété de domaines.
C’est donc l’intersection entre le matériel, la donnée, et son analyse qualitative qui est
créatrice de cette mythologie évoquée dans le troisième point de la définition.
Graphique qui met en perspective les trois aspects du big data inspiré de la définition de
Danah Boyd & Kate Crawford.
En effet, un des premiers effets depuis l’émergence de la Big Data est celui d’un
bouleversement d’ordre de pensée. Etienne Klein, physicien et docteur en philosophie des
Sciences, constate dans la revue INfluencia consacrée à la question :
1
“We define Big Data as a cultural, technological, and scholarly phenomenon that rests on the interplay of:
(1) Technology: maximizing computation power and algorithmic accuracy to gather, analyze, link, and compare
large data sets.
(2)Analysis: drawing on large data sets to identify patterns in order to make economic, social, technical, and
legal claims.
(3)Mythology: “the widespread belief that large data sets offer a higher form of intelligence and knowledge
that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy.”

9
On met des chiffres partout, qui viennent déposer comme des cendres sur le réel (…)
Tout se passe comme si on avait peur de ce qui n’est pas mesuré ou – pire – de ce qui ne serait
pas mesurable.1
Cet équilibre entre le mesuré et le non-mesurable sied véritablement à la sphère de la
communication et du marketing, toujours en recherche de légitimité business. Mais cette
vérité chiffrée est aussi applicable à un grand nombre de domaines dans la société, que ce soit
la médecine, la politique, la biologie ou la gestion des catastrophes naturelles. La diversité de
ses applications a pour conséquence qu’elle est aujourd’hui érigée en système, à travers un
discours techno-centré.
Les questions communes que posent l’accès à ces données se situent à un niveau axiologique :
est-ce que l’utilisation de ces données va faire avancer l’humanité (et ses entreprises, biens et
services) ou au contraire constituer un danger pour les citoyens du monde et utilisateurs
d’internet ? Il ne s’agit pas ici de trancher cette question mais plutôt de déconstruire la notion
de Big Data, en s’éloignant des discours utopiques ou dystopiques, et de tenter de comprendre
l’interaction entre la technologie et l’humain à l’œuvre dans l’outil Big Data. Dans quelle
mesure la Big Data et ses usages marketing sont-ils conditionnées par les savoirs que les
individus ont d’eux-mêmes ? Quelles sont les limites du savoir et du pouvoir statistiques ?
Cette problématique nous amène à interroger la place de l’individu à plusieurs niveaux et à
avancer différentes hypothèses :
Hypothèse n°1 : la Big Data parviendrait à créer une connaissance du réel objectif, à
l’origine d’un renversement de paradigme dans la production de savoirs.
Dans une approche épistémologique, on tentera de comprendre l’idéologie à l’origine de la
mythologie de la donnée, liée à une prétendue objectivité de la science. Comment la
technologie est-elle modelée par une mythologie et un système de valeurs qui la dépasse ?
Quelles sont les tensions créées par cette idéologie à l’épreuve du réel ?
Hypothèse n°2 : La constitution d’une « identité » en ligne serait fortement remise en
question par l’existence des traces numériques
1
Revue INfluencia n°9 « La data » Avril/Juin 2014

10
La deuxième partie tentera de comprendre la place de l’individu dans un système qui semble à
la fois le sublimer et le diminuer. Quelles sont les nouvelles modalités de constitution de notre
identité dans un environnement connecté ? Quels impacts du « savoir par les traces » pour la
constitution de l’identité – au niveau personnel mais aussi collectif ?
Hypothèse n°3 : L’accès des marques à la Big Data modifierait la relation qu’elles
entretiennent avec le consommateur, créant de nouveaux messages, de nouveaux liens.
La troisième partie s’attachera à comprendre comment ces tensions et logiques se retrouvent
dans un usage bien précis, celui du marketing personnalisé. Quelle est la place de l’individu
dans cette nouvelle relation-client ? Comment la technique peut-elle s’associer à la créativité
afin d’élaborer une relation de confiance ?
Nous interrogerons ces trois hypothèses à travers différentes approches
méthodologiques. L’analyse de discours sera mobilisée afin de déconstruire la mythologie
associée à la Big Data et de comprendre les représentations de la technique dans la société.
Une analyse sémiologique des communications de l’entreprise IBM, pionnière dans l’usage
de la Big Data, nous permettra aussi de mieux cerner la place prédominante de l’objet
technique comme objet publicisé, recherché, et précieux.

11
I. LA « REVOLUTION DU SAVOIR » ANNONCEE,
UNE UTOPIE A L’EPREUVE DU REEL
Because more isn’t just more: more is different
[Parce que plus n’est pas seulement plus : plus, c’est différent]
Chris Anderson
A. ANALYSE DES DISCOURS ET REPRESENTATIONS DE LA « BIG DATA »
La première partie de notre analyse se concentre sur la Big Data comme phénomène à
la fois technique et culturel. Un des présupposés de cette recherche consiste à comprendre
l’innovation technologique comme s’intégrant dans un système, et donc comme un objet
mouvant, qui se forme et se déforme au gré de ce que l’environnement extérieur lui greffe.
Ses attributs, ses usages, ses biais, sont autant de composantes de la technique qui ne
dépendent pas d’elle mais de sa compréhension dans une écologie sociale extérieure.
Comment le fondement idéologique, les promesses, les idéaux et représentations ont-ils

12
modelés l’objet Big Data et ses usages ? Quelles sont les conséquences de la mythologie et
des discours techno-centrés à la fois sur les pratiques et sur la société ?
1. TECHNOLOGIE ET SOCIETE
Afin de comprendre l’ampleur du phénomène Big Data dans la sphère médiatique et
communicationnelle, il faut comprendre que la Big Data, en tant qu’innovation technique,
n’est pas un phénomène de mode mais bien une nouvelle technologie qui, comme cela est
prédit souvent modifiera notre façon de « vivre, travailler et penser »1
et a déjà une influence
sur nos vies jusque dans leurs quotidiens. Ces déclarations brutes et les discours
dithyrambiques qui les accompagnent ne sont pas fausses, surtout lorsque l’on remet le
phénomène dans une perspective plus large. En effet, la Big Data fait partie de ces progrès
techniques qui sont importants parce qu’ils ont un impact sur l’écologie sociale. Cette
interaction est en réalité constituante du progrès technologique en soi. Melvin Kranzberg,
historien de la technologie, et auteur des 6 lois de la technologie, l’explique ainsi :
La technologie n’est ni bonne ni mauvaise ; ni même neutre… L’interaction de la technologie
avec l’écologie sociale est telle qu’il est fréquent que les avancées techniques aient des répercussions
environnementales, sociales et humaines, qui aillent bien au-delà de la première utilité de ses appareils
et pratiques techniques elles-mêmes.2
La première phrase, qui remet en cause la neutralité supposée de la technologie, est
selon lui la première loi de la technologie. La dernière étant que la technologie est « une
activité extrêmement humaine ». Ces deux assertions sont liées et sont importantes pour la
compréhension du phénomène de la Big Data. Plus que d’être une application technique figée
– la collection et l’analyse de données, structurées et non structurées, en grande quantité – la
Big Data est un phénomène mouvant, et son utilisation est faite par les hommes : à la fois
dans la production de données (par les utilisateurs) et dans sa réception et transformation (par
des analystes, sociologues, journalistes, marketeurs et autres). L’analyse axiologique du
phénomène selon laquelle le fait d’avoir accès et d’analyser ces données serait un ressort
1
“transform how we live work and think” (Cukier & Mayer-Schonberger, 2013).
2
«Technology is neither good nor bad ; nor is it neutral… technology’s interaction with the social ecology is
such that technical developments frequently have environmental, social, and human consequences that go far
beyond immediate purposes of the technical devices and practices themselves.”
Melvin Kranzberg, 1986, Technology and History: ‘Kranzberg’s laws’, Technology and Culture, 27

13
d’une logique du bien ou du mal, est une limite (Technology is neither good or bad). Mais son
interaction avec la main humaine, son développement dans le temps, et sa finalité lorsque
appliquée à des domaines d’études précis, sont autant de composantes qui font de la Big Data
un phénomène technologique enclin à avoir un impact sociétal, économique et politique. Dans
la mesure où c’est un phénomène technologique ayant une existence en dehors de son corps
scientifique et purement technique, il s’inscrit dans la lignée du progrès dans son acceptation
la plus large. En effet, l’utilisation de la Big Data est un progrès à bien des égards : que ce
soit la médecine analytique, la personnalisation des services, l’usage militaire et
gouvernemental, ou l’aide humanitaire, la Big Data a prouvé plus d’une fois son utilité dans la
société. Mais la force créatrice, qui bouscule et renverse des systèmes entiers, n’est pas propre
à la Big Data, mais à tout phénomène technologique lié à un usage de société.
La technique, et ici la technologie, a le pouvoir de changer tout un système de pensée, son
impact dépassant totalement son simple objet de départ pour s’instiller dans la société et le
monde moderne d’une manière plus générale. Ainsi, Kate Crawford1
et Danah Boyd
rappellent que Ford, en introduisant la mécanisation du travail et en changeant le processus de
division des tâches, n’a pas seulement révolutionné la façon dont on construit les voitures,
mais aussi la façon dont on travaille, notre rapport au travail et la société de manière générale.
Ici, la Big data en tant qu’outil, est vecteur de changement jusque dans la représentation que
nous avons du savoir, de l’information, du réel et des comportements sociaux des individus.
En entreprise notamment, où elle est le plus prégnante pour le moment, elle sert trois
objectifs majeurs : l’amélioration de l’expérience client, l’optimisation des processus et de la
performance opérationnelle de l’entreprise et l’aide au business model. On parle de manière
plus générale d’aide au processus décisionnel en entreprise. La Big Data ne se réduit donc pas
à une technologie qui aurait en elle-même une fin et une application simple ; elle fait part d’un
processus plus complexe et qui dépasse le domaine scientifique. C’est un «actif stratégique »
qui établit un renversement de paradigme d’organisation que l’on nomme généralement «data-
centric». En somme, les données quanti-quali fournies par l’analyse des données structurées et
non structurées (données des entreprises et données en dehors des entreprises, transmises par
les objets connectés) sont aujourd’hui à la source de beaucoup de processus d’analyses, de
1
Boyd, D & Crawford, K. (2012). Critical Questions for Big Data, Information, Communication & Society. 15 (5),
p662-679.

14
recherches et en entreprise, décisionnels. C’est cet écosystème qui mène les chercheurs à
parler de « révolution du savoir » (Boyd et Crawford), de « fin de la théorie » (Anderson) ou à
déclarer, comme Marc Andreesen – un des premiers innovateurs d’internet - que le « logiciel
dévore le monde ».
2. « La fin de la théorie » selon Anderson, analyse et déconstruction d’un
discours utopique
L’article de Chris Anderson, rédacteur en chef du magazine américain Wired, « The End
of Theory: The Data Deluge Makes the Scientific Method Obsolete », publié en 2008, est le
premier d’une longue liste d’articles annonciateurs d’une révolution, d’un bouleversement
sans précédent, construisant ainsi la mythologie de la data, ainsi qu’un discours
l’accompagnant : parfois utopique, quelques fois sans nuances, mais surtout tracant les
contours de l’objet Big Data telle que présentée et vécue dans la réalité.
Une analyse du contenu de l’article qui a été au départ de l’effervescence médiatique
mais aussi des investissements massifs et de l’intérêt grandissant pour la question, permettra
de mieux comprendre le discours unifiant qui accompagne la Big Data, mais aussi de le
déconstruire et de le remettre en perspective.
Le titre et le contenu de l’article sont devenus au fil des années des références. L’effet
annonciateur, prophétique, sans nuances mais totalisante, de ce qu’est la Big Data et de son
impact sur le monde, semble en effet écrit pour marquer les esprits.
Dans son article, Anderson prévoit « la fin de la théorie », le début d’une « nouvelle ère », et
annonce que la méthode scientifique, ou les modèles auparavant utilisés sont déjà obsolètes
face au « laboratoire de la condition humaine » qu’est le Big Data et l’analytique.
Seuls des modèles, des équations cosmologique aux théories sur le comportements
humains, semblaient capable d’expliquer le monde autour de nous de manière imparfaite mais
cohérente. Jusqu’à maintenant. Aujourd’hui, des entreprises telles que Google, qui s’est
développé dans une ère de données massives et abondantes, n’a pas à se contenter de modèles
incorrects. En fait, ils n’ont pas besoin de s’accommoder de modèles du tout.1
1
Only models, from cosmological equations to theories of human behavior, seemed to be able to consistently,
if imperfectly, explain the world around us. Until now. Today companies like Google, which have grown up in
an era of massively abundant data, don't have to settle for wrong models. Indeed, they don't have to settle for

15
Selon Anderson, la puissance des données disponibles en masses et des algorithmes
seraient telles que la théorie, les modèles scientifiques, n’aurait plus besoin d’être puisque les
« mathématiques appliquées » et les « algorithmes agonistiques » sont bien plus puissants et
justes. Anderson s’appuie sur l’exemple de Google, qui ne se rapproche en rien au départ
d’une agence de publicité mais qui a « seulement supposé que de meilleures données, avec
des meilleurs outils analytiques, allaient remporter la victoire. », pour finir en saluant la
justesse de vue de Google : « Et google avait raison. »1
Anderson insiste sur l’idée que les statistiques non seulement révolutionne la méthode
scientifiques, balayant les hypothèses, les analyses sémantiques, causales, qui ont été utilisés
des siècles pour se concentrer uniquement sur l’analyse des Big Datas, qui « remplacent tout
les autres outils. » et qui chassent « toutes les théories du comportement humain, de la
linguistique à la sociologie. »
La pensée d’Anderson est sur ce point radical. L’avènement du Big Data est selon lui
un raz-de-marée pour la science. Mais sa confiance en la technique est telle qu’elle apparaît
aussi sans nuances. Les hyperboles et les tournures sémantiques font perdre tout pragmatisme
mais aussi toute mesure à Anderson qui va jusqu’à dire : « Avec assez de données, les chiffres
parlent tout seuls. »2
. Anderson manque ici de rigueur intellectuel et trahit une pensée
totalisante. Les données quantitatives issues de la Big Data ne se suffisent pas à eux-mêmes,
ne s’expliquent et ne s’analyse pas sans l’aide d’un « data scientist », ou « data analyst. ».
Nous reviendrons plus tard sur l’implication de ces analyses et sur la place de l’analyse, du
contexte, et de l’expertise, dans le traitement des données. Mais cette formulation est déjà
intéressante en tant qu’elle trahit des croyances et l’espoir mis dans le Big Data et ses
possibilités : ce sont les mythes de la performance, de l’efficacité, et aussi de l’objectivité qui
sont ici mobilisés.
models at all.” Anderson, Chris, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete,
Wired magazine – Juin 2008.
1
It forces us to view data mathematically first and establish a context for it later. For instance, Google
conquered the advertising world with nothing more than applied mathematics. It didn't pretend to know
anything about the culture and conventions of advertising — it just assumed that better data, with better
analytical tools, would win the day. And Google was right.
2
With enough data, the numbers speak for themselves.

16
Anderson, en voulant démontrer la puissance de l’usage des Big Data participe à créer
un discours qui dépasse la seule constatation des avancées de la science et des
bouleversements que celles-ci induisent. En louant les capacités d’analyse sans précédent des
entreprises telles que Google, il leur alloue une puissance et un rôle nouveau, celui de
nouveaux régulateurs, nouveaux maîtres du pouvoir, sans possibilité de contestation face aux
pouvoirs techniques qu’elles contiennent. C’est ainsi que se clôt l’article d’Anderson, laissant
entrevoir un renversement de valeurs et de nouveaux jeux de pouvoirs : « Il est temps de se
demander : qu’est-ce que la science peut-elle apprendre de Google ? ».
Ces déclarations ne sont pas seulement les symptômes d’un effet de mode autour du
phénomène mais s’accorde avec la mythologie crée autour de l’Internet – père du Big Data –
à la fois par ses créateurs et ses utilisateurs. Les métaphores utilisées pour désigner l’Internet
telles que le « cyberspace ». Evoquée la première fois en 1984 dans un roman de William
Gibson intitulé Necromancer, le mot a directement cristallisé les idéaux libertaires des
pionniers d’internet. Dans sa déclaration d’indépendance du cyberespace, écrite par John
Perry Barlow, un des hackers fondateurs d’Internet, le mot est choisi et décrit bien un espace
hors des lois, utopique, où la navigation est totalement libre. « L’autoroute de l’information »,
expression poularisée par Al Gore transmet une idée d’une ampleur toute aussi importante,
mais dans une vision plus polissée, de quelque chose de certes imposant (autoroute) mais
simple et sans embûches (l’idée d’une route). Les mots et expressions associés au Big Data
revêt les mêmes mythologies. L’adjectif Big en témoigne mais le « pétabyte age » d’Anderson
nous mène encore plus loin. Le Big Data serait en lui-même une ère (age) et le mot technique
« pétabyte » confère à celui-ci une aura technologique certes mais aussi obscure. Qu’est-ce
qu’un pétabyte ? Les vocables tels que gigaoctets sont plus communément utilisés, mais
n’appelle pas non plus de représentations clairs. Les « octets » sont les unités utilisées pour
mesurer les quantités d’informations en informatique. Cependant, les octets, gigabytes,
pétabytes, n’appellent à l’esprit de l’utilisateur lambda aucun ordre de grandeur. Par son
manque de connaissance du langage dit geek, l’utilisateur lambda voit la chose sans nuances :
dans sa grandeur presque totale, son immensité indescriptible.
Ces expressions sont signes de l’euphorie et de l’émulation des médias en général sur
la question. Cette excitation s’inscrit dans un discours qui a toujours accompagné Internet
depuis ses balbutiements. Internet en tant qu’innovation « ordonnatrice du monde » a toujours
cristallisée les fantasmes, idéologies et été au départ de visions utopiques et dystopiques qui

17
sont aujourd’hui exacerbées par le Big Data. On trouve en effet au cœur du projet
d’Internet une utopie d’un monde où la connaissance et le savoir seraient démultipliés car mis
en commun. En témoigne l’étymologie du mot ordinateur, signifiant du moins pour la France.
Alors que François Girard, responsable du service de publicité d’IBM, cherchait une
traduction au mot « computer », il demanda conseil à un professeur de linguistique de la
Sorbonne (voir correspondance en annexe). Le mot ordinateur, avant de s’appliquer aux
machines, avait à la fois un sens religieux, et était un adjectif désignant « Dieu qui met de
l’ordre dans le monde. » Même si l’étymologie ne s’applique qu’à la France, les racines du
mot témoignent d’un imaginaire de puissance démiurgique aujourd’hui associée au Big Data.
Ce discours est nourrit à deux niveaux, le premier étant celui des acteurs du Web,
premiers évangélistes, qui nourrit ensuite celui des médias. Les discours de la Silicon Valley –
où évoluent les géants du web que sont Apple, Facebook, Google et Amazon (les GAFA) –
ont pour point commun une vision particulière : le « solutionnisme », selon l’appellation du
philosophe Evgeny Morozov.
Dans son ouvrage « Pour tout résoudre, cliquez-ici », Evgeny Morozov dénonce
l’internet-centrisme qui dévore la planète. En effet, sous l’impulsion des fondateurs des
GAFA, un nouveau discours a pris place dans l’espace public, consistant à vouloir résoudre
les problèmes du monde, aussi divers soient-ils, à l’aide de la technologie. Ainsi, et comme
les unes des médias le décrivent, la Big Data pourrait résoudre les crises humanitaires, et les
réseaux sociaux provoquer les soulèvements populaires les plus opportuns et provoquer des
révolutions par des peuples tyrannisés. Ces évènements en marge étant la partie visible de
l’iceberg, alors que chaque jour de plus en plus de décisions et d’initiatives sont prises à
travers le prisme de la technologie et de la science. La récente annonce de Facebook et
d’Apple1
, qui voudraient financer la congélation de leurs ovocytes de leurs employées afin de
combler le fossé de carrières entre les hommes et les femmes, traduit cette croyance naïve en
la toute puissante des solutions techniques à des problèmes à la fois biologiques et des
problèmes de société (les problèmes d’évolution de carrière des femmes au travail).
1
« Facebook et Apple pourraient subventionner la congélation d'ovocytes de leurs employées » Le Monde
Pixels, 14/10/2014

18
Le « solutionnisme » décrit par Morozov emprunte son concept à un mouvement
philosophique qui le précède, celui du positivisme d’Auguste Comte. Le précepte : « savoir
pour prévoir, afin de pouvoir » prend aujourd’hui un relief spécial et semble se réactualiser.
La Big Data est une science qui touche aux modalités du savoir, qui prétend accumuler ce
savoir mais aussi en tirer de nouvelles capacités, de prédiction (l’algorithme prédictif en étant
l’outil), pour finalement s’arroger d’un pouvoir. La Big Data « se vend elle-même comme une
connaissance qui équivaut au pouvoir. »1
On retrouve ici la dialectique savoir-pouvoir
foucaldienne, avec l’organisation panoptique qui s’ensuit. La croyance en la possibilité d’un
savoir objectif, total, libérée de toutes contraintes humaines, confère à la Big Data un pouvoir
s’en égal.
Mais si l’on s’accorde à parler de renversement de paradigme dans la méthode de
production du savoir, il est néanmoins nécessaire de comprendre les logiques qui régissent ces
nouvelles pratiques, les règles au cœur de l’outil, et dans déceler les limites. Les pratiques de
datamining (nous nous situons ici au niveau de l’analyse de l’objet Big Data en tant que
pratique technique pure), contiennent déjà des approximations et entrainent des
problématiques dans une réalité plus complexe et plus obscure qu’il n’y parait.
B. Approche épistémologique : «l’ère du pétabyte» et ses
conséquences sur la méthode scientifique
1. Les conditions de la « révolution du savoir » ?
Le datamining est défini dans un document du United States General Office comme
« l’application de la technologie et des techniques de banques de données (comme l’analyse
statistique et la modélisation) dans le but de découvrir les structures cachées et les relations
subtiles entre données, et d’en inférer des règles permettant la prédiction des résultats
futurs2
. » Cette nouvelle méthode de productions de savoirs est permise par l’abondance et le
caractère massif des données récoltées sur Internet. En effet, plus la masse de données est
importante, plus le résultat semble pouvoir s’approcher d’un savoir objectif et total. Cette
affirmation permet de comprendre l’emploi de l’adjectif « big » accolé à la « data » mais nous
1
Nathan Jurgenson, 2014, “View from nowhere”, New Inquiry
2
Cité dans : Rouvroy Antoinette, Berns Thomas, « Le nouveau pouvoir statistique », Multitudes 1/ 2010 (n° 40),
p. 88-103

19
éclaire surtout sur le changement de rationalité à l’œuvre dans la pratique du datamining, ou
exploitation de ces données. Kate Crawford, à l’instar de Chris Anderson et d’autres
observateurs du phénomène, prédisent une révolution du savoir, causée par la banalisation de
cette pratique.
Tout d’abord, il convient de rappeler que le volume de données est exponentiel.
Depuis le début de l’humanité jusqu’en 2003, le volume d’informations numérisées produit
par l’humanité n’excédait pas les 5 exaoctets. Fin 2011, 5 exaoctets étaient générés tous les
deux jours. Fin 2013, ce même volume est généré en 12 minutes. Nous entrons dans ce que
Chris Anderson, ex-rédacteur en chef du magazine américain Wired, qualifie de l’ère du
pétabyte. (« The Petabyte Age »). L’ère du Pétabyte, de la donnée reine, impacte tous les
domaines du savoir dans leurs applications : gouvernementales, commerciales,
universitaires… Mais selon Anderson, et on tentera d’en étudier les mécanismes et les effets,
le datamining influe et modifie aussi le cœur de sa matière : la science-même. Comment un
changement quantitatif – le nombre de données disponibles – peut-il induire un changement
de paradigme dans la production de savoirs et la recherche ?
Antoinette Rouvroy et Thomas Berns nous éclairent sur la question. En effet, la
production de savoir par le biais de la Big Data diffère totalement des logiques de
raisonnements jusqu’ici utilisées en recherche. Le modèle est inversé, et l’on passe d’une
logique déductive à une logique inductive.
Rompant avec les ambitions modernes de la rationalité déductive reliant des
phénomènes observables à leurs causes, la rationalité statistique suit une logique inductive
bien particulière dès lors qu’elle tire sa force du traitement automatisé d’informations dont la
seule qualité est l’aspect massif : indifférente aux causes des phénomènes, cette rationalité
s’ancre dans l’observation purement statistique de corrélations (indépendantes de toutes
logique) entre données recueillies d’une manière absolument non sélective dans une variété de
contextes hétérogènes les uns aux autres.1
Ici, c’est bien la quantité de données qui est à l’origine d’un renversement d’un ordre
de pensée : plutôt que de s’appuyer sur un phénomène observable pour en déduire un
1
Ibid

20
système, on s’appuie sur le système observé pour en comprendre, en induire des
comportements. Ainsi, puisque le résultat (le système) se trouve au départ de l’enquête, on
semble éviter tout risque de biais réservé à la méthode déductive. En passant de la déduction
à l’induction, la méthode de production de savoirs abandonne de nombreux prérequis pour
s’approcher d’une objectivité totale et d’une rationalisation extrême.
On soulignera que Rouvroy définit les corrélations comme « indépendantes de toute
logique », que les données sont elles-mêmes « non sélectives », les contextes sont
« hétérogènes ». Ce corpus de données serait à l’échelle de l’intelligence humaine totalement
intraitable, la spécificité du traitement automatisé résidant dans son absence de jugement
causal et de justifications des comportements. La data prime sur le contexte. Les penseurs du
Big Data, cités au préalable, clament tous le même refrain : le nouveau modèle de production
de savoirs par la donnée tue la méthode scientifique, et le monde théorique connu jusqu’à
présent. Savage et Burrows1
, deux sociologues anglais, préviennent du danger et de la crise
imminente de la sociologie empirique due à des méthodes qualitatives, de terrains, qui perdent
en valeur face à la prolifération de données qui assurent d’une efficacité toute autre.
L’ampleur du phénomène, la puissance créatrice de l’outil, le caractère inédit du
phénomène sont autant de variables qui font naître des discours scientistes, qui mettraient de
côté toute intervention humaine à l’heure où la machine règne, et où « les chiffres parlent
d’eux-mêmes. »2
. Une assertion à remettre en perspective.
Les sciences humaines, sciences « molles » ont souvent été critiquées comme étant du
domaine du subjectif : sujettes à l’interprétation personnelle, à la fabulation et à
l’approximation, tandis que les sciences « dures » relèveraient du domaine du réel, de
l’objectif et de l’irréfutable. Avec l’essor de la Big data et de son application à propos de
sujets de recherche sociologiques, les « humanités » se targuent d’un nouveau pouvoir
scientifique et objectif qui leur était jusqu’ici refusé. Mais comme nous l’avons déjà souligné,
les chiffres ne « parlent pas d’eux-mêmes » et même si la matière et les techniques de
recherche ont changé, l’interprétation de la matière est encore nécessaire ainsi que la
transformation de celle-ci. La science seule ne fait pas tout. La donnée pure est une notion
absurde, les données sont croisées, contextualisées, analysées, afin d’être utilisables. Le
quantitatif et le qualitatif s’entrechoquent. Un des problèmes les plus saillants de l’usage de la
1
Savage, Burrows, 2007, The upcoming crisis of empirical sociology, SAGE publications
2
Chris Anderson, loc.cit

21
donnée en marketing est d’ailleurs de recruter des data analysts, ces travailleurs hybrides, au
profil à la fois informatique, scientifique et marketing, sciences humaines. 90% des postes de
data analysts postés en 2011 sont encore viables en 2014.
La foi aveugle en une vérité chiffrée et objective se heurte donc à des réalités plus
triviales, celles des ressources humaines, mais aussi extrêmement pragmatiques. « Tous les
chercheurs sont des interprétateurs de données »1
nous disent Boyd et Crawford. En effet, les
chiffres n’ont pas de sens sans acte interprétatif et l’idée de « raw data » (data pure) est
ineffective puisque les données doivent être « cuisinées » pour rendre compte d’une réalité.
Quelque fois, le manque de contexte entraîne des erreurs d’interprétation qui mettent en péril
l’usage systématisé des données en grande quantité.
Capture d’écran d’une des corrélations absurdes exposée sur le site
http://www.tylervigen.com/
Cette question se pose notamment lors des analyses produites par Facebook. Les
informations partagées sur Facebook sont en partie des énoncés textuels, comprenant des
« statuts » et des « commentaires » partagés par les utilisateurs. L’analyse de ceux-ci, aussi
fine soit-elle, ne parvient pas à déceler l’ironie et le sarcasme, deux réflexes de langage
impossibles à détecter à l’aide de machines, ce qui mène invariablement à des erreurs
1
“all researchers are interpreters of data” (boyd et Crawford, idem)

22
d’interprétation. Les interactions humaines se font à plusieurs niveaux et il est très difficile
d’en déceler toutes les subtilités par une analyse uniquement quantitative. En 2013, Facebook
a mené une recherche auprès de ses utilisateurs pour tenter de découvrir si la vue de certains
contenus sur le site pouvait affecter leur humeur. Mais, outre les questions éthiques posées
lors de cette recherche faite à l’insu des utilisateurs, une question technique s’est posée. Par
exemple, les phrases « I don’t feel happy » et « I feel happy » comptaient réciproquement
comme des statuts « positifs » puisque les deux contenaient le mot « happy ». Cette erreur
grossière n’est peut-être pas l’apanage de toutes les recherches faites à l’aide de data analysis,
mais une des questions soulevées par cette anecdote est la couverture médiatique dont elle a
bénéficié ! La publication des résultats a en effet engendré une folie médiatique autour de
l’affaire, les résultats étant très rarement remis en cause.
Les chercheurs ayant pris la peine de se plonger dans l’analyse des résultats produits
par la Big Data ont donc démontré que les données en masse ne font pas tout et qu’il serait
dangereux d’avoir une foi aveugle en cet outil. Mais cette conséquence de premier niveau, qui
se situe dans le spectre de la recherche et reste en soi une querelle scientifique, a en réalité des
conséquences bien plus larges, toujours dans cette idée déjà évoquée que technique et culture
ne font qu’un. Kate Crawford exprime ses doutes ainsi:
La mythologie actuelle de la Big Data dit que plus de data amènerait plus de justesse
et de vérité. La position epystémologique est tellement séduisante que beaucoup d’entreprises,
depuis la publicité jusqu’à la production automobile, se réorganise afin de collecter des
données de manière massive. Le mythe et les outils, comme Donna Haraway l’a déjà observé,
se constitue l’un et l’autre, et l’instrument de la collecte et de l’analyse de données agissent
aussi comme des agents qui construisent la société. Bruno Latour l’exprime ainsi : « Changer
les outils revient à changer toute la théorie sociale qui l’accompagne ». Le changement dû à la
Big Data est un changement politique et culturel, et non commençons à peine à en voir
l’envergure.1
Ainsi, Kate Crawford note que “le mythe et les outils se constituent l’un et l’autre” dans une
interdépendance que nous avons déjà observé. Hors, il existe un outil fondamental du Big
Data, l’algorithme, qui renferme en lui-même des représentations à l’origine de beaucoup de
1
“The current mythology of big data is that with more data comes greater accuracy and truth. This
epistemological position is so seductive that many industries, from advertising to automobile
manufacturing, are repositioning themselves for massive data gathering. The myth and the tools, as
Donna Haraway once observed, mutually constitute each other, and the instruments of data gathering
and analysis, too, act as agents that shape the social world. Bruno Latour put it this way: “Change the
instruments, and you will change the entire social theory that goes with them.” The turn to big data is a
political and cultural turn, and we are just beginning to see its scope.”

23
croyances liées à la Big Data et ses possibilités. En quoi l’algorithme est-il un des “agents qui
construisent la société?”
2. L’algorithme, un système balancé entre idéologie technologique et
logique capitaliste
« Algorithme » est un des termes les plus utilisés lorsqu’on aborde le sujet du Big
Data. Encore une fois, le caractère ambivalent du terme participe à la création de mythologies
autour de son utilisation. Le terme est tiré du domaine scientifique mais semble cristalliser
toutes les peurs et les fantasmes autour de l’usage de la Big Data. Un algorithme est un
ensemble d’étapes, abstraites, qui, une fois traduites en langage informatique, permet de
brasser un ensemble de données complexes, de les croiser et d’en sortir des données
utilisables et consommables. L’utilité et l’efficacité d’un algorithme bien conçu justifient que
les mathématiciens s’y attardent. Le succès d’Amazon repose par exemple sur l’algorithme
qui permet ce service de recommandation personnalisé.
Mais le terme revêt en soi une aura magique que ceux qui en bénéficient semblent vouloir
amplifier et garder les secrets. A l’instar de Coca-Cola qui tait précieusement un « ingrédient
secret » à sa recette, ou Chanel qui ne révèlera jamais d’où vient l’envoutement des essences
du n°5, Google se refuse à révéler son algorithme, source du plus puissant moteur de
recherche des Internets. Et on le comprend, tout comme Amazon, l’algorithme de Google est
la clé de voute de sa marque, elle participe à créer cette aura et justifie le monopole exercé sur
le marché. L’efficacité de son algorithme est un facteur d’attractivité inégalable pour Google.
La raison pour laquelle les utilisateurs d’Internet se tournent vers ce service est parce qu’ils y
vont avec l’idée préconçue – et peut-être justifiée mais là n’est pas la question – que la
recherche effectuée par Google leur donnera le meilleur résultat, le plus fiable, le plus fourni
et le plus détaillé. Pourtant, on serait en droit de se poser des questions quant à leur recette
puisque la situation de monopole inquiète aujourd’hui.
Le ministre allemand de la Justice et de la protection des consommateurs a lui-même
demandé à Google de partager son algorithme lors d’une interview au Financial Times. En
effet, fort de sa situation de monopole, Google aurait les moyens de modifier son algorithme
afin de privilégier certains liens et de biaiser la recherche à des fins avantageuses pour la
firme. L’algorithme “page rank” répond d’ailleurs déjà d’une approche non-objective et

24
personnalisée. L’opacité des algorithmes développés par des firmes privées, qui sont
concernées par la nécessité d’avoir des secrets commerciaux, pose le problème des biais
induits par la recherche algorithmique et impossible à détecter. Ici, l’interaction entre la
technologie et les logiques commerciales modifie totalement la Big Data et pose de
nombreuses questions quant à cette « révolution du savoir ».
Pour ce qui est de l’algorithme de Google, Dominique Cardon pose la question de sa
légitimité. Le fameux « page rank » de Google est, explique-t-il dans son livre La Démocratie
Internet, basé sur un modèle scientifique, où un article cité par un autre chercheur est
considéré comme digne d’intérêt. Ici encore, le monde de la science et de la recherche
apparait comme un idéal à reproduire et à imiter. La hiérarchisation de l’information du
réseau est ordonnée selon les pages les plus citées, liées, commentées. Mais de plus en plus, et
parce que l’algorithme s’auto-modifie à une vitesse incontrôlée, celle-ci se fait personnelle et
se rapproche plus du modèle « de l’audimat et du plébiscite »1
. Ainsi, la hiérarchisation est
personnalisée, ciblée, et les recherches effectuées sur le moteur de recherche ne correspondent
plus à une objectivité scientifique mais plutôt à un système de recommandations ciblées, qui
prennent en compte l’historique de recherche, et d’autres traces laissées en ligne. Si je tape
« jaguar » sur internet, selon que je sois un homme habitant aux Etats-Unis ou en Afrique du
Sud, je recevrai probablement des liens totalement différents, l’un à propos de l’animal et
l’autre à propos de la voiture. Ici, c’est deux paradigmes de la culture Internet qui entrent en
collision : celui du modèle scientiste basé sur la recherche et l’objectivité, et celui libertaire du
capitalisme et du culte de la performance. En utilisant un algorithme qui permet la
personnalisation et le ciblage, Google obéit à la loi capitalistique de la performance et du
service. Ce résultat est le plus pertinent pour cet utilisateur donc c’est celui à privilégier. Quid
de l’objectivité ? Quid de la nécessité éthique de présenter à l’utilisateur une vision complète
de l’objet recherché et non biaisé par un contexte socio-culturel et géographique amené par
l’analyse de ses données ?
Astrid Mager énonce cette double logique dans un nouveau système de pensée qu’elle
nomme « l’idéologie algorithmique »2
. Selon elle, le climat d’euphorie autour des progrès
techniques et des solutions proposées par les moteurs de recherche stabilise et sert les intérêts
capitalistes des entreprises du Web. Encore une fois, l’interaction entre une innovation
1
Cardon, D. (2010) la démocratie internet, Broché
2
Astrid Mager (2012) Algorithmic ideology, Information, Communication & Society, 15 ;5, 769-787

25
technique et la société dans laquelle elle émerge est telle que la société capitaliste
d’aujourd’hui dessine le mode de fonctionnement des engins de recherche tels que celui de
Google.
Un des exemples les plus parlants de cette nouvelle donne mercantile à l’œuvre dans la
technologie est la plateforme AdWords développée par Google qui offre des publicités
ciblées, basés sur les termes de recherches utilisés par l’internaute. Le privilège accordé aux
publicités et le profilage systématique des utilisateurs entrent dans cette logique de la
performance et de la commercialisation évoquée plus haut, et ont des conséquences sociétales
que nous évoquerons dans la deuxième partie.
Mais, comme Mager le démontre à travers ses travaux, si cette logique mercantile marche,
c’est aussi parce que les entreprises qui créent les sites internet et les marketeurs cherchent
une visibilité qu’ils ne trouvent que s’ils se plient aux règles du jeu. En effet, en accordance
avec la logique de l’algorithme « page Rank », seuls les sites les plus cliqués remontent dans
les premières pages de Google. Alors les sites en ligne sont aujourd’hui construits afin d’être
au plus près de ce qui est populaire, recherché, ou alors sont des sites sponsorisés par le
moteur de recherche (boost dans l’algorithme possible si l’on paye) dans la mouvance de ce
qu’on appelle le « native advertisement », ou la publicité déguisée.
En conclusion, l’algorithme, loué pour son objectivité toute scientifique, est en réalité
soumis au biais mercantile des entreprises privées. Cette évolution dans l’élaboration d’un
outil au départ uniquement technique mais modelé par la société qui l’entoure porte un
nouveau coup au mythe de la Big Data comme phénomène révolutionnaire. Plutôt que
d’ériger un nouveau système radicalement différent du précédent, proche d’une idéologie
« techno-fondamentaliste »1
les possibilités technologiques participent à l’évolution de
pratiques ancrées dans une société aux logiques capitalistes.
C. Etude de cas : IBM. Un discours de marque qui façonne les
représentations et imaginaires de la Big Data
1
Astrid Mager, 2012, op.cit

26
Le cas d’IBM illustre non seulement comment la Big Data peut être utilisée pour faire du
marketing, non pas dans le cadre d’une opération éphémère mais dans une stratégie de marque
et de business plus large. En d’autres termes, IBM nous intéresse ici pour sa double casquette,
celle d’une entreprise technologique au cœur du commerce de la donnée et des logiciels, mais
aussi en tant que marque, construisant son discours non pas autour de l’entreprise et de ses
services mais mettant l’accent sur les innovations technologiques en elle-même, et son rôle
dans la société. L’étude du cas d’IBM dans ces pages est donc construite autour de deux
analyses. Premièrement, celle d’IBM en tant qu’acteur incontournable du secteur
technologique ayant une prise de parole grand public et B2C (business to consumer). Le
deuxième angle de cette étude de cas est celui de l’analyse du discours structurant d’IBM
autour des innovations technologiques et de son impact sur le développement du monde. Afin
d’explorer ces deux aspects, nous passerons tout d’abord en revue la transformation de
l’entreprise et la formation de la marque IBM à travers le temps, pour ensuite se concentrer
sur deux prises de paroles essentielles. L’analyse sémiotique des campagnes « IBM for a
smarter planet » et tout particulièrment « IBM smarter cities » nous permettra de comprendre
la construction de la promesse et de la stratégie de marque.
1. L’entreprise, la marque et sa raison d’être1
IBM est une entreprise vieille de plus de cent ans. En un siècle, elle s’est imposée comme
un acteur majeur de la révolution informatique. Née en 1911 de la fusion de trois entreprises
américaines, IBM est d’abord dénommée la CTR, Computing-Tabulating-Recording, en
raison de son expertise dans le domaine des pointeuses, des balances automatiques et des
machines de calcul. En 1924, elle devient l’International Business Machines, et se targe dun
slogan resté célèbre : « Think ».
Le premier succès technologique d’IBM est la commercialisation de deux machines ayant
marquées l’histoire de la technologie : le premier calculateur électromécanique capable de
fonctionner sans intervention humaine, puis en 1948, le Selective Sequence Electronic
Calculator (SSEC) considéré comme le premier vrai ordinateur. La véritable révolution qui
marquera l’entrée dans l’ère de l’informatique moderne advient en 1964 lorsque IBM lance la
« révolution 360 », un système de machines aux circuits intégrés compatibles entre eux et
1
« the brand bigger purpose » en marketing consiste à adopter une mission qui dépasse le business seul de la
marque afin de construire une prise de parole, une identité et un système de valeur.

27
donc s’adaptant à plusieurs besoins professionnels. En tant que pionnier de l’ère de
l’informatique, IBM est avant tout une entreprise tournée vers des échanges avec d’autres
entreprises, sur un modèle de B2B (business to business). Les premiers ordinateurs ont en
effet fait le succès d’IBM bien avant que le consommateur soit concerné par l’acquisition
d’ordinateur à usage personnel.
Par son histoire et son implication dans les avancées technologiques concernant les
« hardwares », c’est-à-dire les ordinateurs, IBM reste aujourd’hui très liée à cette imaginaire.
Un élément clé à la fois de l’histoire de l’ordinateur et de l’histoire de la marque s’est déroulé
en 2011, lorsque l’ordinateur Watson d’IBM a défié l’esprit humain lors du jeu télévisé
Jeopardy ! Watson est aujourd’hui le premier champion du jeu télévisé. Cette performance
témoigne d’un pari risqué de la part d’IBM. Bien sûr, Jeopardy ! est un jeu très populaire aux
Etats-Unis et participer au jeu assure une visibilité immense à la marque. IBM se situe ici
dans un débat historique et dans un environnement empli de fantasmes : celui de la bataille
entre l’homme et la machine. En faisant participer sa machine au jeu, IBM démontre la
suprématie de la machine sur l’homme. Ce faisant, elle expose et fait la publicité de ses
produits d’une manière que l’on ne saurait réfuter. Mais, le positionnement est extrême et
fort : IBM se situe du côté des machines et pourrait mener le monde à sa perte, la peur, les
fantasmes, les visions dystopiques et la littérature environnante nourrissant les imaginaires et
représentations du public. Ce coup de force est une manière de faire connaître la marque, de
prouver sa performance, mais peine à créer du lien avec les consommateurs. Une marque ne
doit pas seulement parvenir à se faire connaître, mais doit aussi créer un lien affectif avec son
public. Etre aimé constitue un pari non négligeable pour une marque, et présenter une
machine intelligente, lançant des défis à l’homme, en tant que représentant de la marque
semble être un pari risqué de la part d’IBM.
Mais si IBM réussit aujourd’hui son pari d’être une marque à la fois aimée et reconnue, c’est
aussi en grâce à une stratégie de marque plus élaborée, dépassant le simple coup d’éclat de
Watson gagnant le Jeopardy !
2. « Une planète plus intelligente », la technique au service du bien
commun, analyse d’un discours et d’une stratégie de marque

28
La figure de Watson appartient cependant plus au passé d’IBM qu’à son présent et son
futur. Les deux activités principales d’IBM sont aujourd’hui les services (dont une grande
partie se situe dans la branche Big Data and analytics) et les logiciels (software).
Afin de communiquer sur cette nouvelle identité, IBM a associé à son slogan « think », une
initiative pérenne et holistique : « IBM for a smarter planet »1
. Programme holistique car il
permet de regrouper toutes les activités d’IBM, le programme « smarter planet » est aussi une
prise de parole générale qui dépasse le cadre de son business. Dans la lignée de l’entreprise à
l’origine de l’ordinateur, IBM se fait aujourd’hui ordonnatrice du monde.
IBM présente ainsi son programme sur son site internet français2
:
« Depuis cinq ans, les IBMers collaborent avec des entreprises, des villes et des
communautés du monde entier pour construire une planète plus intelligente.
Nous avons réalisé d'immenses progrès grâce à des dirigeants qui se sont servis de
l'explosion des données pour transformer leurs entreprises et leurs institutions en
s'appuyant sur les analyses, la technologie mobile, le social business et le cloud.
Nous avons également constaté que certains d'entre eux avaient commencé à tirer
profit de cette nouvelle ère. Ils sont en train de changer leur façon de prendre des
décisions. Ils redéfinissent les méthodes de travail de leurs équipes, revoient comment
servir au mieux leurs clients et modifient la nature même de leur activité.
C'est la capacité à tirer profit des données qui offre à ces dirigeants un avantage
concurrentiel à l'ère du "tout intelligent".
Aujourd'hui, les vieilles habitudes laissent la place à de nouvelles perspectives, de
nouvelles méthodes de travail et de nouvelles solutions dans tous les secteurs (US)
secteurs. Les rôles changent. Et plus que jamais, nos dirigeants ont besoin d'un
partenaire pour les aider à s'adapter. »
Le programme d’entreprise est fondé sur l’expertise Big Data et analytique de l’entreprise, et
IBM se propose de mettre son savoir non seulement aux services de ses clients, mais aussi de
la planète entière et de ses habitants. IBM reprend ici à son compte les bénéfices et
opportunités crées par la donnée, avec les attributs mythologiques déjà évoqués qui lui sont
associés, et se positionne ainsi lui aussi dans un véritable bouleversement, et renversement de
paradigme. (« Sur une planète plus intelligente, il faut changer le paradigme de la réaction à
l'anticipation »3
)
1
« IBM pour une planète plus intelligente »
2
http://www.ibm.com/smarterplanet/fr/fr/overview/ideas/index.html
3
http://www.ibm.com/smarterplanet/fr/fr/overview/ideas/index.html

29
Les nouvelles lois scientifiques d’une planète « toute intelligente » selon IBM sont les
suivantes :
- Utilisez l’analyse et non l’instinct
- Les individus ne peuvent plus être considérés en tant que segment
- Le social est le nouveau mode de production.
Sans détailler les implications et solutions associées à ces nouvelles lois paradigmatiques, il
est intéressant de noter que ceux-ci s’inscrivent totalement dans le cadre plus général de la
pensée dictée par la data : le délaissement de la pensée subjective et de ses biais au profit
d’une analyse objective, vraie, aux résultats assurés, la croyance en un savoir si fin que
« l’individu » et ses tréfonds n’ont plus de secrets et enfin l’organisation du monde en réseau,
où l’Internet social, serait le nouveau lieu du savoir.
Le programme « smarter planet » s’inscrit non seulement dans les discours de « la fin de la
théorie » et de « révolution du savoir » étudiés en première partie, mais promeut aussi une
culture techno-centrée et participe à la croyance selon laquelle les problèmes du monde
pourraient se résoudre grâce à la technologie. On retrouve dans le discours et les initiatives
d’IBM tout le « solutionnisme » dénoncé par Morozov. On pourrait rétorquer qu’IBM a en
effet l’expertise d’améliorer des systèmes et de contribuer à ces innovations, mais c’est ici
non pas les prouesses techniques mais plutôt la promesse, la mission organisatrice annoncée
dans leur communication qu’il est intéressant de souligner. Dans une conférence de
présentation du programme en 20081
, Ginni Rometti présente ainsi la mission, telle une
évidence :
Avec tout cette technologie et ce réseau disponible à un prix si bas, tout n’est-il pas
améliorable ? Tout n’est-il pas connectable? Quelle information ne peut pas être transformée
en idée ? Quel service n’est pas rendu disponible pour un client, un citoyen, un étudiant ou un
patient?2
Ainsi IBM adopte un discours prosélyte sur le big data, mais l’analytique étant leur cœur de
métier, la logique veut que cette entreprise soit émettrice de ce message, qu’elle soit au départ
de ces croyances.
1
“Conversations for a Smarter Planet: 1 in a Series,” IBM. 2008.
2
“With so much technology and networking available at such low cost, what wouldn’t you enhance?
What wouldn’t you connect? What information wouldn’t you mine for insight? What service wouldn’t
you provide a customer, a citizen, a student or a patient?

30
Une des difficultés communicationnelles dès lors que les produits et services sont si
technologiques est d’avoir un discours de vulgarisation qui ne perde pas en précision, et
surtout un discours attractif. Comment délivrer à la population le message d’une entreprise
technologique certes, mais au service de tous ? « Smarter planet » est évidemment une
initiative qui a pour but de faire passer ce message, mais l’analyse sémiotique de deux
campagnes va nous permettre de comprendre les ressorts de la communication d’IBM ainsi
que les outils utilisés afin de faire de la Big Data un sujet de société.
Ainsi les publicités s’appuient sur un design très simple, accompagnées de déclarations
affirmatives, mettant le lecteur devant un fait présenté comme une évidence. « Les chauffeurs
peuvent prévoir les embouteillages avant qu’ils arrivent ». «Tous les docteurs connaissent
votre personnalité. » Ces faits sont énoncés d’une manière simple, presque brutale, qui suscite
la curiosité. Mais très peu d’autres informations sont données, en
tout cas elles sont indiquées en plus petit. Le texte explicite la
phrase, mettant en avant l’action faite pour IBM afin de rendre
possible cette amélioration. Le design attractif, les dessins enfantins
retirent toute technicité et créent une simplicité bénéfique au
message. Cette simplicité et ce sentiment d’évidence sont aussi
véhiculés par les jeux de mots utilisés comme celui-ci : « Banks
now hold up robbers » («les banques kidnappent les braqueurs »).
Le principe du jeu de mots est ici mobilisé à plusieurs niveaux. La
malice qui y est associée permet de donner vie au principe d’une
« planète plus intelligente ». Le jeu de mots repose sur l’idée qu’en
inversant l’ordre des mots dans la phrase, un autre sens naîtra, plus
attrayant. Si l’on extrapole l’idée du jeu de mots à celle de la mission que s’est donnée IBM,
on voit qu’IBM se présente comme celui qui, en changeant l’ordre des choses (les banquiers
kidnappent) renverse un ordre préétabli et règle ainsi les problèmes.
La publicité « People for smarter cities », qui met en scène ce qu’IBM appelle des
« publicités avec une utilité » va plus loin dans la banalisation et l’acceptation. Pour
promouvoir les « villes intelligentes » générées par leur technologie, IBM a créé des espaces
publicitaires de rue avec une utilité sociale, par une simple incurvation, ceux-ci se

31
transforment en abri pour la pluie, ou en banc. L’idée étant qu’un peu d’intelligence n’importe
où peut aider à l’amélioration générale de la ville, de la communauté. Ici, pour parler
d’analyse, nul besoin de mettre en avant de la technicité, la seule touche audacieuse suffit à
faire passer le message. IBM se situe dans la simplification, l’épuration extrême, laissant de
côté tout discours technique afin d’imposer son expertise comme une évidence, un ordre
naturel des choses.
Ainsi IBM, avec son discours de marque et la mission qu’elle s’est attribuée, participe
à la création de ce discours techno-centré qui vise à ériger la technologie comme solution aux
problèmes du monde. La Big Data bénéficie de ce rayonnement, qui lui permet de s’instiller
dans les pratiques de plus en plus d’entreprises en quête de performance. Pour tirer un
maximum de ces données qui auparavant n’intéressaient personne, les entreprises multiplient
la collecte de données, et d’autres s’en font leur spécialités. Les “traces” laissées sur Internet
par les individus sont désormais épiées, convoitées. Les progrès en technologie analytique ont
modifié, nous l’avons vu, les conditions de productions de savoirs. Mais afin d’analyser les
données, il faut d’abord les collecter. Quelle est la place de l’individu dans ces nouvelles
pratiques? Quelle nouvelle dynamique de constitution de l’identité voit le jour alors que les
vies sont numérisées, connectées ?

32
II – Les « empreintes digitales », facteur
constituant des identités en ligne
“Je est un autre”
Arthur Rimbaud
« You only have one identity »
Mark Zuckerberg
Nous l’avons vu, l’outil Big Data constitue aujourd’hui un prolongement des logiques de
performance dans une société façonnée par une idéologie à la fois de la technique et du néo-
libéralisme. Cette quête de la performance est associée à une utopie d’une science qui
parlerait d’elle-même, entière, proche d’une vérité objective. Ce changement de paradigme

33
dans la recherche est notamment créé et perpétué grâce à la banalisation de la collecte de
données. Une pratique qui mène, selon Antoinette Rouvroy et Thomas Berns, à une
« digitalisation de la vie-même ». Le phénomène est décrit ainsi :
Par ‘digitalisation de la vie-même’, nous entendons non seulement la banalisation de
l’enregistrement de données biométriques, mais encore, et plus largement, l’enregistrement
systématique, sous formes de « traces » digitales, des comportements humains individuels ou
collectifs, y compris parmi les plus triviaux (ceux qui passent même inaperçus de la part de ceux
qui les adoptent, et qui précisément n’ « intéressent » personne, n’étant pas eux-mêmes tenus pour
signifiant). Ce phénomène de traduction du monde physique et de ses habitants en données
métabolisables par les systèmes informatiques n’est désormais plus limité, ni même freiné de
manière essentielle par une inaccessibilité technique ou économique, ni par une récalcitrante
significative du public1
.
En parlant de digitalisation de « la vie même », on opère un glissement entre le savoir
statistique, à la ‘vie’ statistique, espace où les individus ne sauraient s’échapper des « traces »
laissées au fil de leur navigation et de leur quotidien connecté. En effet, l’individu est au cœur
du processus de savoir. Emetteur de données, l’individu est le premier maillon de la chaîne de
savoir mais il est aussi le récepteur, la finalité recherchée dans la sphère des services émis par
la Big Data. L’objet de cette partie est tout d’abord d’analyser la place de l’individu dans ce
nouveau système fait par lui, pour lui, et parfois contre lui. L’analyse menée se divise en deux
parties. Nous nous attacherons tout d’abord à étudier « l’infra-individuel » : quelles sont les
nouvelles modalités de constitution d’une identité dans des espaces en ligne construite sur le
« clair-obscur » ? Quelle division s’opère alors que les mouvances identitaires se fixent
derrière les écrans ?
Ensuite, nous tenterons d’éclairer l’influence des pratiques algorithmiques au niveau « supra-
individuel », c’est-à-dire dire sur la modélisation et de la hiérarchisation de la connaissance en
ligne, et des nouveaux rapports de l’individu au monde extérieur.
A. Le paradoxe de l’identité en ligne : entre protection et projection
Dominique Kaplan définit l’identité ainsi :
L’identité n’est pas une donnée fixe, livrée une fois pour toute, qu’il s’agirait
simplement de garantir et protéger. C’est une construction permanente, multiforme, qui marie
1
Rouvroy Antoinette, Berns Thomas, « Le nouveau pouvoir statistique », Multitudes 1/ 2010 (n° 40), p. 88-103

34
des éléments extérieurs et intérieurs à l’individu, objectifs et subjectifs, pérennes et éphémères.
C’est surtout une construction sociale : l’identité se définit dans la relation aux autres.
La vie privée est au départ de ce qui constitue notre intimité, c’est là que se forme ce
qui relève de l’intime ainsi que nos convictions et croyances personnelles. Elle est aussi le
socle de la vie publique, et l’une ne saurait être dissociée de l’autre puisqu’elles se nourrissent
l’une l’autre, sur la base d’un va-et-vient et d’une construction en négatif. La vie publique,
c’est le privé que j’expose, et la vie privée est constituée de mes expériences publiques
intériorisées, déconstruites. En cela, les frontières entre l’une et l’autre sont floues, et
dépendent du contexte, de l’individu lui-même et des espaces, notamment numériques, qui
contribuent eux aussi à casser la prétendue dichotomie privé/public. Ainsi, le concept
d’identité est fortement lié à celui de vie privée. Pourtant, cette sphère semble s’estomper, se
réduire comme peau de chagrin puisque tout s’expose, et que les informations non-exposées
sont en réalité récupérées par des entreprises.
Comment se constitue notre identité si elle n’est plus définie par le va-et-vient de l’exposition
publique et de la réserve privée ? Comment concilier exposition de soi et protection alors que
sur le réseau les limites sont floues et non-hermétiques ?
La problématique de constitution de nos identités – transformées, altérées, par les
usages numériques et la nouvelle règle du jeu de la traçabilité est traversée par un paradoxe,
énoncé par Daniel Kaplan dans son ouvrage Informatique, libertés, Identité. Selon lui, au
cœur de nos identités en ligne « protection et projection de soi forment un couple
indissociable, et l’on n’assurera pas l’une sans faciliter la seconde. ». On tentera de résoudre
ce paradoxe et de comprendre les modalités de la constitution d’une identité sous le prisme
d’un espace public qui est aussi un espace analysé, fouillé, décrypté et réorganisé à l’aide de
la science analytique.
Tout d’abord, afin de bien cerner la complexité de la formation de nos identités en
ligne, il est nécessaire de contextualiser et de définir le terme d’identité. Celle-ci ne doit pas
s’entendre comme une entité fixe, mais comme un concept mouvant, qui se constitue dans le
temps, et dans l’espace, à travers des interactions (avec des pairs), des allers et retours entre
l’exposition et la réclusion, et des altérations du au temps, à l’expérience. Je n’ai pas la même
identité si je suis à la maison avec mes enfants, ou sur mon lieu de travail. L’identité dans la
vie réelle est déjà plurielle, mais elle semble se dupliquer sur les écrans et même se
fragmenter, et, peut-être se disloquer ?

35
Cette fragmentation, ou démultiplication des identités est caractéristique de
« l’homme post-moderne ». Quand Pierre Grelley pose la question : Etes-vous postmoderne ?
Il énonce l’idée d’une « fragilisation de l’individu » due à un « abandon de l’organisation ».
Grelley va jusqu’à questionner le terme « d’individu » pour lui substituer le terme de
« personne », plus approprié « aux rôles divers au sein des tribus auxquelles elle se réfère.»1
.
Une identité fragmentée dans un monde explosé certes mais cette identité est aussi
hyperbolisée, renforcée par l’exposition de soi. En effet, si l’individu ne se constitue plus
comme unité indivisible, il ne renonce pas à sa singularité pour autant. Dominique Cardon
évoque cette nouvelle formation de l’identité dans son ouvrage La démocratie Internet. Selon
lui « l’exposition des individus sur Internet traduit une forme d’intensification du rapport à
soi’2
dans nos sociétés.» Mais la projection de soi décrite comme une pratique construite de
l’identité peut être comprise comme une tentative de contrôle de la part de l’individu. Cette
première manière de résoudre le paradoxe consiste à prêter aux utilisateurs plus de rationalité
que de supposé. Le calcul de notre image en ligne serait à la fois une « opportunité de
coopération »3
(moyen de faire grandir son réseau), mais aussi une valorisation de soi, et un
contrôle opéré en négatif sur ce que je livre de moi. ‘Contrôle en négatif’ doit être compris
comme l’idée que le manque apparent de contrôle restrictif cacherait en réalité une activité
consciente de « contrôle » au sens de maîtrise.
Les usagers donc, plutôt que de s’échiner à protéger leurs données, opéreraient un
contrôle de soi à travers le calcul de leur identité affichée. En effet, les identités affichées sur
Internet sont de plus en plus calibrées selon le type de support et l’audience à qui l’on
s’adresse. On ne livrera pas les mêmes informations sur un réseau social professionnel et un
réseau social d’affinités. Les utilisateurs créent, avant même la récupération des données par
des analystes, des « profils » d’eux-mêmes. En conséquence, en soignant leur image, en étant
les propres modérateurs de leurs identités dans l’espace public numérique, les utilisateurs sont
plus enclins à livrer des informations très personnelles, parce qu’ils semblent en avoir la
maîtrise. Le caractère illusoire de ce contrôle est cependant à souligner, et fera l’objet de notre
analyse. Sans aborder la question de l’après de ces données – décontextualisées, croisées, re-
1
Grelley Pierre, « Êtes-vous postmoderne ? », Informations sociales 8/ 2006 (n° 136), p. 51-52
2
Cardon cite : Anthony giddens, la transformation de l’intimité. Sexualité, amour et érotisme dans nos sociétés
modernes, Paris, Le Rouergue/Chambon, 2004
3
Cardon, Dominique, 2010, La démocratie Internet, Broché

36
profilées - on peut déjà noter que le contrôle est relatif dans la mesure où notre identité
dépend aussi de l’interaction avec nos tiers, qui participent à la formation de cette image de
nous.
Chaque remarque, commentaire, évaluation, interaction, en ligne est susceptible de
forger une image de soi qui n’a pas été validée par nous-mêmes. C’est la question de l’e-
réputation, que nous n’allons pas aborder ici mais qui concerne et inquiète de nombreux
usagers d’Internet. Des données à priori banales peuvent se transformer, par leur existence en
ligne, et par l’interaction avec d’autres usagers, et donc devenir a postériori des données « à
caractère personnel ». Cette subtilité a d’ailleurs été prise en compte en 2004, dans la Loi
relative à l’informatique, aux fichiers et aux libertés.1
Ainsi, le contrôle est illusoire, puisque
même à la surface de l’écran, l’identité échappe à notre intentionnalité.
L’idée selon laquelle nous ne nous exposons pas à nu mais bien dans une idée de
séparation des espaces et ayant consciences des règles du jeu se matérialise dans les pratiques.
C’est ce que prouve l’échec des systèmes de « fédérations d’identités » qui visaient à garder
les informations livrées sur un site, pour les délivrer à nouveau sur un site différent par la
suite, par souci de commodité pour l’usager. Lorsqu’un réseau social me demande de
récupérer mon annuaire d’adresse email afin de partager avec toutes les personnes avec qui
j’ai un contact par échanges d’e-mails par exemple, cela provoque une véritable collision
entre deux espaces qui sont différents, à l’intérieur desquelles je n’expose pas la même
identité. L’étape qui suit l’idée de fragmentation puis de contrôle de son identité est
logiquement la valorisation de soi, élément majeur de la « projection de soi ». Ces jeux subtils
poussent certains chercheurs, à l’instar de Danah Boyd, à annoncer que la vie privée n’a pas
disparu :
De manière fondamentale, la vie privée n’est pas le contrôle sur la manière dont
l’information se déverse. C’est plutôt la capacité à comprendre un système social afin d’avoir
un comportement adéquat. Pour cela, les individus doivent avoir confiance en leur
interprétation du contexte, c’est-à-dire des personnes autour et de l’architecture de l’espace.
Quand ils sentent que le contrôle leur échappe ou quand il leur manque ce contrôle, ils doivent
faire la chose qu’il faut, et crier à la violation de leur intimité.2
1
« Données à caractère personnel : toute information relative à une personne physique identifiée ou qui peut
être identifié, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs
éléments qui lui sont propres. » (Loi relative à l’informatique, aux fichiers et aux libertés)
2
“Fundamentally, privacy is about having control over how information flows. It's about being able to
understand the social setting in order to behave appropriately. To do so, people must trust their interpretation
of the context, including the people in the room and the architecture that defines the setting. When they feel

37
Il est cependant possible de reprocher à Danah Boyd ou encore Daniel Kaplan une vision
partielle de ce qu’est l’identité en ligne. En se plaçant du côté de l’utilisateur et de son
intentionnalité, ils en déduisent une forme de pouvoir et de maîtrise de l’identité, mais ils
semblent se borner à la surface du réseau, hors, et c’était l’objet de la première partie, celui-ci
ne finit pas à la surface de l’écran. Là où les conditions de formation de l’identité en ligne
diffèrent réellement de celles d’une vie hors-ligne, c’est que celle-ci laisse des traces. Alors
que chaque individu, en accordance avec la définition de Kaplan, se définit dans un
mouvement, changeant, évoluant, les traces, les données collectées, ont la possibilité de
modeler une toute autre vision de cette même identité.
B. Les « empreintes digitales » ou l’identité par les traces
Rouvroy et Berns mettent en avant le concept de « dividualisation » de nos identités
afin d’illustrer ces nouvelles conditions du devenir de nos identités.
Selon les deux chercheurs, les différents usages sur Internet mèneraient à la
« dividualisation » des individus, c’est-à-dire l’atomisation de nos identités sur Internet.
L’individu devient presque fantôme, n’ayant plus aucune homogénéité et intelligibilité. Les
données personnelles forment des traces atomisées, récupérées par les entreprises de la Big
Data :
« La mesure de toute chose est « dividuelle », à la fois infra- et supra-personnelle,
rhizomatique, constituée d’une multitude de représentations numérisées, potentiellement
contradictoires entre elles et en tout cas hétérogènes les unes aux autres. C’est cet « être »
numérique constamment décomposé, recomposé, composite, qui intéresse à présent
directement le pouvoir. » 1
1. « Corps statistiques »
as though control has been taken away from them or when they lack the control they need to do the right
thing, they scream privacy foul.” in Boyd, Danah. 2010. "Making Sense of Privacy and Publicity." SXSW. Austin,
Texas, March 13.
1
Antoinette Rouvroy et Thomas Berns, Le nouveau pouvoir statistique » ou quand le contrôle s’exerce sur un
réel normé, docile et sans évènement car constitué de corps « numériques »…, Multitudes, 2010/1 n°40, p.88-
103

38
Ainsi, cette identité construite sur les écrans – en un sens maîtrisée - est par la suite
désincarnée, déformée par l’analyse technique qui en est faite. En récupérant les « traces »
laissées sur l’Internet, les analyses produisent d’autres profils, qui ne correspondent plus à une
identité seule, faite à la lumière de l’individualité, mais qui se mêlent aux autres pour former
d’autres agrégats. Rouvroy situe ici l’entrechoquement de « l’infra-individuel » et du « supra-
individuel » :
A la différence du monde physique, l’univers numérique, déterritorialisé, n’est peuplé
d’aucun objet, d’aucune forme résiliente, mais seulement de réseaux de données. A fortiori,
aucun corps individuel, subjectif, actuel, susceptible d’évènement, ne peut s’y rencontrer.
L’unique sujet qui est aussi l’unique souverain de l’univers numérique est un corps statistique,
impersonnel, virtuel, moulage générique et changeant des « risques et opportunités » détectés
en temps réel, nourris de fragments infra-personnels d’existences quotidiennes agrégés à un
niveau supra-individuel sous forme de modèles de comportements, ou profils, auxquels
correspondent, par certaines combinaisons de traits chaque fois spécifique, une multitude de
personnes1
.
Rouvroy ne met pas de côté les logiques d’exposition de soi et de valorisation qui sont
les premiers balbutiements d’une réflexion sur l’identité. Mais selon elle, c’est bien parce que
nous perdons nos identités propres que nous créons ces avatars sur les réseaux tels que
Facebook, qu’elle compare « à l’intérieur bourgeois de la fin du XIXème », remplis de signes
de l’appartenance sociale de chacun, de son goût et des signes extérieurs d’une identité.
Les données, sorties de leurs contextes, sont dépourvues de toutes connotations
personnelles au sens d’identifiables. Une donnée personnelle, mêlée à d’autres données toutes
aussi personnelles afin de créer un « profil », de repérer un motif, devient, pour reprendre les
termes de Rouvroy « supra-individuel ». Nos « singularités respectives » n’ont aucune
signification pour l’analyse de données. Ainsi, Rouvroy ne situe pas la collecte de données
dans une réflexion sur la vie privée, selon elle, il s’agit plus d’une perte totale d’identité, alors
que nous devenons des « corps statistiques ».
L’analyse de Rouvroy se vérifie dans les pratiques d’un site comme celui d’OKCupid, site de
rencontre qui entend créer des affinités amoureuses à l’aide de la comptabilité algorithmique.
Dans son livre « Dataclysm, who we are when we think no one is looking », Christian
1
Antoinette Rouvroy, Des données sans personne : le fétichisme de la donnée à caractère personnel à
l’épreuve de l’idéologie des Big Data, Selected Work

39
Rudder, le fondateur du site, met en avant les méthodes et révèle les dessous du site. On peut
donc observer cette duplicité qui règne sur l’internet. Il existe le « profil utilisateur », puis à
l’envers de l’écran, d’autres profils sont mobilisés. Une partie du livre est ainsi consacré à
mettre en avant des schémas raciaux. Les asiatiques auraient sur leur profil utilisateur plus de
mentions d’une chose plutôt que d’une autre… On observe une re-catégorisation sociale ou
raciale, alors même que l’individu pense s’être extrait de celle-ci puor s’affirmer en tant
qu’individu propre. Rudder n’hésite pas à exposer les résultats d’enquêtes et
d’expérimentations qu’il a mené sur son site, à l’insu des utilisateurs.
Le site a par exemple truqué les réponses des algorithmes afin de faire se rencontrer
deux « profils » qui selon les statistiques, avaient une très faible probabilité de se
correspondre. Rudder le sait, il s’expose à des critiques et des questionnements sur son
éthique, mais selon lui, le jeu en vaut la chandelle. Le titre de son livre est explicite, Rudder
veut explorer la nature humaine et observer l’individu et ses pratiques « quand il pense que
personne ne regarde ». Afin de mieux analyser ses utilisateurs, OKCupid a même mis en
place un système qui permet de collecter non seulement les messages émis mais aussi les mots
et phrases tapées qui ne sont pas envoyés, écrits puis effacés. Rudder défend ses pratiques au
nom d’une réalité objective, qui mettrait en lumière la véritable nature de l’homme, dégagée
de toute pression sociale ou « surmoi ». Les notions freudiennes pourraient être ici mobilisées
puisque les ambitions du site épousent la logique de désintégration du sujet humain telle
qu’opérée par Freud. Selon Rudder, les données récupérées à l’insu de l’utilisateur
témoigneraient d’une réalité et d’une vérité débarrassée de la contrainte du « surmoi ».
Par exemple, Rudder explique que la plupart des gens n’affichent pas de préférence quant à
l’appartenance ethnique lors de la constitution de leur profil. Il est rare de trouver un profil
stipulant qu’il n’est pas intéressé par les hommes ou les femmes noir(e)s. Cependant, les
analyses des données à la suite d’interactions et de choix prouvent que chaque ethnie a une
tendance lourde à n’interagir qu’avec des membres de la même ethnie. On pourra rétorquer à
Rudder que ces résultats illustrent une forme de reproduction sociale qui ne relève pas
nécessairement de l’individu et de l’intime mais plutôt de cadres sociaux plus larges, mais ce
que démontrent ces analyses, c’est justement qu’un deuxième sens, invisible aux yeux des
utilisateurs, est affilié aux « profils » lissés. La constitution de notre identité se fait par
rapport à l’espace public : en disant au monde qui l’on est, de manière volontaire, on se
constitue et on envoie une image de soi. Mais quelle identité se met en place quand l’espace le
plus intérieur, non destiné à être public, devient constituant de ma personne, devient un
indicateur puissant de mon identité ?

40
Cette intrusion dans le moi intime, ce glissement dans la foramtion de nos identités, se
fait à plusieurs strates. Pour ce qui est de l’experience d’OKCupid, elle reste interne à
l’entreprise et nous le verrons, les résultats de ces analyses ont diverses conséquences. Le
deuxième glissement se fait lorsqu’une information publique devient publicisée. On observe
alors une rupture dans la relation des individus aux entreprises. Danah Boyd, chercheuse
spécialisée sur les interactions des jeunes sur les réseaux sociaux, rappelle que lorsque les
réseaux, les systèmes, changent les règles du jeu, il en résulte une défiance et une perte de
confiance de la part de l’utilisateur. En effet, chaque utilisateur a le droit de prétendre à un
présupposé d’obscurité.
C’est cette rupture de confiance qui est advenue lorsque Facebook a, sans prévenir,
changé ses règles de confidentialité, et mis à disposition une nouvelle interface en 2008, le fil
d’actualité qui apparaît à droite de l’écran, et indique à tous les « amis » votre activité en
temps réels : quelles photos vous avez aimé, commenté, à quel événement vous participez…
Ces informations assez détaillées étaient auparavant noyées dans la foule de données et
d’informations. Un coup de projecteur dessus change les modalités et crée un espace plus
surveillé, où chaque geste peut avoir des conséquences.
Une autre avancée du site Facebook a fait couler beaucoup d’encre et modifié
profondément les possibilités de recherche sur le site, il s’agit de l’outil Graph Search. Graph
search est un « moteur de recherche amélioré sur Facebook, recoupant les données
personnelles des utilisateurs pour des résultats plus précis en fonction de leurs amis, photos,
lieux et centres d'intérêt. »1
. Ce nouveau service est un pas vers la démocratisation des usages
de Big Data, desquels le croisement d’informations est un pilier. Cet outil à l’usage de tous
apparaît presque comme une vulgarisation de data analyse, et donc expose le plus grand
nombre à ses résultats inédits. A l’aide de l’outil, on peut en effet faire remonter des
informations auparavant insignifiantes, mais qui prennent tout leur sens une fois croisées. Les
implications sont doubles, tout d’abord les informations mises en lumière étaient auparavant
noyées dans la masse de données accessibles seulement par ordre chronologique. La
« publicisation » de données publiques est encore une fois mobilisée ici. Le deuxième effet
pervers intervient lorsque les corrélations faites mettent en lumière des associations
1
Le Monde, « Les résultats dérangeants de Graph Search »
[Disponible : http://rezonances.blog.lemonde.fr/2013/01/23/les-resultats-derangeants-de-graph-search- le-
nouvel-outil-de-recherche-sur-facebook/]

41
dérangeantes. Tom Scott, un utilisateur de Facebook, a ainsi compilé ses résultats dérangeants
dans un site dédié. (Voir annexe). Ainsi, Tom Scott montre qu’il est possible de retrouver
grâce à l’outil de recherche sociale des « membre de la famille de gens vivant en Chine et
indiquant aimé [le dissident] Falung Gong. ». Il est assez aisé de comprendre les implications
d’un outil aussi fin que celui-ci lorsque les informations sont à risques. On pourra rétorquer
que ces utilisateurs sont les seuls à blâmer étant donné que ces informations étaient déjà
publiques. Ici, le présupposé d’obscurité et la fine différence entre public et publicisé entre
encore en jeu. Pour reprendre les termes de Dominique Cardon, le web se fait en « clair-
obscur » et il est très difficile d’en maîtriser les nuances et ombres, surtout lorsque les règles
du jeu changent sans consultation préalable. En effet, le Graph Search permet de trouver des
informations sur des personnes qui ne font pas partis du cercle « d’amis », c’est-à-dire
d’utilisateurs que j’ai accepté dans ma communauté en ligne, et faisant partie de ce web
« public ». Sans le Graph Search, les photos publiées étaient automatiquement visibles et
disponibles pour cette communauté, mais en développant l’outil, Facebook a aussi changé
cette modalité, rendant publiques des informations autrefois réservé à un cercle précis. Ainsi,
mon identité, ma é-réputation, se trouve totalement bouleversé par l’ubiquité du site et
l’exposition soudaine de parties signifiantes de mon identité.
La constitution de nos identités en ligne est donc paradoxalement définie par un double
mouvement de projection et de protection. Mais les choix des utilisateurs dans cette binarité
semblent être eux-mêmes paradoxaux : ayant conscience de la récupération de ses données,
du risque d’altération de son identité par des entreprises et firmes, ils semblent ne pas s’en
préoccuper. Ou du moins, si les inquiétudes se font paraîtres, elles ne sont que très rarement
suivies d’actes. Comment expliquer la séparation entre croyances et actes ? Quelles forces
extérieures sont au départ de la résilience de l’individu face à la collecte de données ?
2. L’acceptation par la banalisation et autres jeux sociaux qui
mettent en tension « l’identité »
« La banalisation d’une surveillance démocratique et égalitaire qui ne prétend plus
cibler personne a priori, mais s’applique à tout le monde par défaut, ont tôt fait d’éroder
réticences et résistances » préviennent Rouvroy et Berns. La résistance s’érode puisque le
procédé se banalise certes, mais il est alors crucial de comprendre les rouages de cette

42
banalisation. Par quels procédés a-t-on implémentés l’idée que la co-production de données
était plus normale que la rétention ?
Tout d’abord, il convient de souligner des pratiques répandues et qui induisent un
comportement qui ne nécessite pas l’adhésion de l’individu mais répond plutôt du
« phénomène d’inertie ». En effet, il est commun que les sites ne demandent pas à l’utilisateur
de notifier son accord mais présuppose que celui-ci est direct. Par une logique d’inertie qui est
aisément compréhensible, l’utilisateur ne fait pas l’effort de décocher les cases, c’est donc
plutôt « sur le mode l’adhésion par défaut que du consentement libre et éclairé que les
individus vivent cette prolifération de données enregistrées »1
. L’effort parait disproportionné
à l’utilisateur, qui cède aux sirènes de la commodité et de l’immédiateté, alors que les
conséquences sont, elles, invisibles et lointaines. La nouvelle métaphore du mode d’échange
sur internet appelé le cloud, le nuage, renforce encore cette impression lointaine, nébuleuse.
Les données seraient stockées dans le cloud, inaccessibles. Dans le cas des cases pré-cochées,
ou encore dans celui des conditions de confidentialité rarement lues et dénoncées comme trop
complexes, en police si étroite qu’elles n’appellent pas à la lecture, c’est le design, ou
l’architecture de l’espace qui est en cause. L’environnement est pensé, construit, pour
favoriser les comportements. Dans d’autres cas, c’est plutôt des tendances de société plus
larges qui agissent directement sur la façon dont les individus se perçoivent et donc décident
de livrer ou non leurs données.
Le mode par-défaut et l’immédiateté de la pratique sont à l’origine d’une pratique
inconsciente. Mais si les utilisateurs avertis sont à mêmes de livrer leur données malgré tout,
c’est aussi parce qu’ils considèrent que celles-ci valent moins que d’autres avantages qu’il
pourrait en tirer.
Ainsi, Luth Research, une start-up de San Diego offre même aujourd’hui la possibilité
de récupérer les données personnelles sur les ordinateurs et smartphones de leurs clients en
échange d’une somme de cent dollars par mois. L’offre est attractive et plus de dix mille
personnes ont d’ores et déjà adhéré au système, laissant l’entreprise collecter leurs données de
géolocalisation, leurs recherches Google et temps de connexion aux réseaux sociaux.2
1
Antoinette Rouvroy, Des données sans personne : le fétichisme de la donnée à caractère personnel à
l’épreuve de l’idéologie des Big Data, Selected Work
2
http://www.technologyreview.com/news/529686/how-much-is-your-privacy-worth/

43
Cette logique est propre à Internet et peut être résumé au « service pour profil ». Une idée qui
est exprimée dans cette phrase qui est devenue un avertissement dans les milieux
numériques : « si c’est gratuit, c’est toi le produit.» Phrase qui revient souvent à la fois pour
dénoncer et justifier les pratiques de profilage. En effet, la nécessité économique impose un
modèle viable afin que ces services gratuits le restent. Aujourd’hui, si les sites internets,
d’information, de musique ou réseaux sociaux sont accessibles gratuitement, c’est parce que
les sites revendent les données personnelles à des agences de publicités. Si l’utilisateur
concède à ces pratiques, c’est grâce à l’attrait de la gratuité et du service rendu. Ce modèle
économique à l’œuvre sur Internet est déclinable et peut se comprendre comme un simple
échange de biens pour services, associée parfois à une récompense.
Ainsi, les données seraient parfois livrées contre un coupon de réduction.
Selon une étude menée par PunchTab1
, une agence de publicité, en Avril 2014, 27% des
sondés se disent prêt à être traqués par des détaillants en contrepartie d’une récompense telles
que des bons de réductions. 88% des sondés seraient prêts à partager leur localisation pour des
bons de réductions, et 69% pour des publicités ciblées qui correspondraient aux produits
qu’ils aiment.
Sans questionner les implications éthiques de ce genre de pratiques, ni d’afficher un
jugement moral ou une vision péjorative, il convient d’en éclairer les logiques et
conséquences, encore une fois sur les comportements. Ce système de « profil pour service »
provoque en effet de nouveaux comportements, desquels on peut questionner à la fois
l’origine, l’élément déclencheur, et la finalité.
Le foisonnement de données de notre monde hyper-connecté provient, on l’a dit, de
notre présence sur de plus en plus d’objets connectés que sont les ordinateurs, tablettes,
téléphones, carte de crédit. Mais ces objets se diversifient avec l’apparition de « l’internet des
objets ». Appareils de la vie quotidienne aux fonctions diverses, ces objets ont en ommuns
d’être « connectés » ou « intelligents » : ils collectent des informations, ensuite réutlisables
pour l’utlisateur mais aussi pour la société qui les produit. La voiture peut maintenant être
connéctées, mais aussi le réfrigérateur, ou encore un bracelet à l’usage des sportifs (le Nike
fuel band par exemple). Les pouvoirs associés à ces objets, les possibilités qui s’ouvrent sont
1
http://www.mediapost.com/publications/article/230662/consumers-agree-to-mobile-location-tracking-for-
sp.html?edition=74952

Boissaye-Marine-M2MAG-mémoire

Boissaye-Marine-M2MAG-mémoire

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Boissaye-Marine-M2MAG-mémoire

Similar a Boissaye-Marine-M2MAG-mémoire (20)

Boissaye-Marine-M2MAG-mémoire