Vers le site Automates Intelilgents
La Revue mensuelle n° 137
Robotique, vie artificielle, réalité virtuelle

Information, réflexion, discussion
logo admiroutes

Tous les numéros


Archives
(classement par rubriques)

Image animée
 Dans La Revue
 

Retour au sommaire

Automates Intelligents s'enrichit du logiciel Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront alors définitions, synonymes et expressions constituées de ce mot. Une fenêtre déroulante permet aussi d'accéder à la définition du mot dans une autre langue (22 langues sont disponibles, dont le Japonais).

 

Biblonet. Big Data: A Revolution That Will Transform How We Live, Work, and Think
Viktor Mayer-Schonberger et Kenneth Niel Cukier (mars 2013)
Discussion par Jean-Paul Baquiast 04/07/2013


Faut-il traduire en français le terme de Big Data? Il y a quelques mois, les lecteurs francophones, surtout quand ils connaissaient peu les technologies de l'information, l'auraient demandé. Aujourd'hui, ce n'est plus guère utile, du fait notamment que les francophones ne peuvent plus désormais échapper, en ce domaine comme en d'autres, à l'inondation des concepts forgés par la société américaine. Le moindre article évoque dorénavant les Big Data, avec plus ou moins de pertinence. Il s'agit là, comme en de nombreux autres domaines, de la domination que les Américains ont su prendre depuis des années sur des technologies devenues vitales, du fait de la passivité et de l'incompétence de ceux qui se présentent comme représentant nos intérêts.

Traduisons cependant Big Data par « masses de données ». Les travaux en France même, portant sur ce concept, ne manquent pas, comme en témoigne la page consacrée récemment à ce sujet par l'IRIT (Institut de recherche en informatique de Toulouse) http://www.irit.fr/-Masses-de-donnees-et-calcul,677). Ces masses de données représentent par exemple les milliards ou dizaines de milliards (ne comptons pas) de données générés en un seul jour par tous ceux qui utilisent les réseaux numériques et capteurs dont désormais la planète est truffée, téléphone, internet, objets « intelligents » multiples.

Mais qu'est-ce qu'une donnée? Les puristes voudront distinguer la donnée de l'information. On peut en effet considérer que la donnée est un élément brut, qui ne prend de valeur que pour les êtres (les cerveaux) capables de lui attribuer une signification au regard de leurs efforts pour survivre dans le monde. Si j'entends le cri d'alarme d'une proie à l'arrivée d'un prédateur, je pourrai soit ranger ce cri parmi les innombrables bruits du monde que j'enregistre sans leur prêter d'intérêt (dans ce cas ce ne sera pas une donnée pour moi), soit le recevoir comme porteur d'une signification, autrement dit d'une information précise, qu'à l'occasion je pourrai utiliser à mon tour pour me mettre à l'abri.

Tout organisme laisse partout dans la nature des traces innombrables de ses activités. Elles résultent de son interaction avec le milieu comme avec les autres organismes. L'écrasante majorité de ces traces ne sont pas pas observées, et moins encore dotées de signification. Une plage à marée basse est pleine de marques de pas. Leur étude attentive pourrait donner lieu à des hypothèses intéressantes concernant les auteur des pas et les activités auxquelles ceux-ci se sont livrés. Ces hypothèses pourraient par exemple intéresser divers sociologues s'attachant à préciser les activités des humains au contact du littoral. Mais elles sont trop nombreuses pour être enregistrées et, à plus forte raison, analysées. D'autres priorités mobilisent les observateurs éventuelles. Ces traces ne sont donc ni des données ni des informations. Elles ne se distinguent pas à cet égard des innombrables grains de sable constituant la plage, dont personne l'entreprend l'étude alors que celle-ci pourrait être riche en connaissances géologiques, océanologiques, cosmologiques.

Les traces de pas sur la plage ne deviendront des données, dans le vocabulaire des Big Data, que si elles sont enregistrées sur un support numérique permettant leur mémorisation et leur étude: si par exemple certaines de ces traces, étant considérées par la gendarmerie comme appartenant à l'auteur recherché d'un délit, étaient photographiées et conservées dans un fichier de police multimedia. On pourrait dans ce cas dire qu'elles prennent le statut de données numériques, au regard tout au moins de ceux qui, comme ces gendarmes, pourraient y attacher une importance scientifique.

Mais ce ne seront que des données numériques élémentaires, porteuses d'un très petit nombre d'informations significatives et n'intéressant donc qu'un très petit nombre de personnes. Il ne s'agirait donc pas de Big Data. Si par contre elles se trouvaient recoupées avec d'autres données elles-aussi numérisées, messages téléphoniques ou mels de personnes indiquant s'être promenées sur cette plage à cette heure, avis fournis par la météo concernant le temps qu'il faisait, relevés de circulation routière dans les rues adjacentes, extraits de comptabilité des hôtels, restaurants, vendeurs d'ice-cream pour la zone, elles pourraient fournir à d'éventuels personnes s'intéressant à la fréquentation touristique dans la commune concernée, comme à d'autres questions voisines, de nombreuses informations utiles. Les traces de pas, dans cette hypothèses, susceptibles d'être enrichies par toutes les autres données, entreraient dans le processus décrit par Viktor Mayer-Schonberger et Kenneth Niel Cukier par le terme de « datafication » ou transformation en données significatives.

Changer de méthode

De quoi exactement seraient-elles significatives? Les auteurs de Big Data insistent à juste titre sur le fait que ces données différeraient radicalement de celles résultant d'une observation scientifique classique du monde. Il ne s'agirait plus de rechercher les « causes » d'un phénomène, mais « comment » ce phénomène se manifeste à nous. Or pour passer du Pourquoi au Comment, il faut changer de méthode.

Si je voulais observer et comprendre scientifiquement une partie quelconque du monde, par exemple la marque de pas laissée par un oiseau inconnu sur la plage, j'utiliserais la méthode hypothético-déductive mise au point depuis plusieurs siècles. Je décrirais la trace aussi exactement que possible, je rapprocherais cette description de celles fournies par les archives scientifiques disponibles, je ferais l'hypothèse qu'il s'agit des pas laissés par telle espèce particulière d'oiseau et je m'efforcerais de vérifier cette hypothèse en la confrontant à des données expérimentales déjà disponibles concernant les faits et gestes des individus appartenant à l'espèce envisagée. Si je ne trouvais aucune information pouvant confirmer mes hypothèses, ou bien je considérerais que je me suis trompé, ou bien j'écrirai un article pour une revue scientifique annonçant la découverte d'une nouvelle espèce d'oiseau, en invitant mes pairs à discuter le contenu de cette publication.

On voit que dans cette démarche, si la donnée primaire (la trace du pas de l'oiseau) joue un rôle essentiel, c'est l'ensemble du processus scientifique décrit ci-dessus qui lui donne valeur d'information scientifique. A la limite, une seule donnée pourrait suffire à l'amorce du processus de connaissance. Je pourrais évidemment m'appuyer sur d'autres données de même nature pour conforter mon hypothèse, relatives par exemple à des traces de pas d 'oiseaux observées ailleurs ou mémorisées dans des archives, mais en aucun cas il ne s'agirait de données en masse.

Dans le processus d'élaboration de la connaissance décrit avec force détails et exemples par Viktor Mayer-Schonberger et Kenneth Niel Cukier , la démarche est différente. Elle ressemble un peu à celle adoptée dans les phases pré-scientifiques ou empiriques précédant la connaissance scientifique rigoureuse. Mettons-nous à la place d'un naturaliste perdu dans une forêt dense du début du 19e siècle. Pour commencer à mettre un peu d'ordre dans l'océan d'indices laissés par des myriades d'espèces, il procède d'abord à des classements de type statistiques: tant de traces de pas pouvant appartenir à des mammifères et tant de traces pouvant appartenir à des oiseaux. Il procède ensuite à des corrélations. Les marques de pas comportant des traces de griffes seront considérées comme appartenant à des animaux dangereux dont il faudra se méfier. Il s'éloignera a priori de ces animaux, même s'ils sont parfaitement inoffensifs.

Il est clair que dans une telle démarche le scientifique a besoin du plus grand nombre de données possible, afin de prendre du monde qu'il observe la vue la plus large. Dans un premier temps, par contre, il n'a pas besoin que les observations correspondantes soient très précises, du fait qu'il n'aurait pas le temps de les étudier une à une. De leurs côtés, les hypothèses de corrélation seront certes soumises à vérification expérimentale si la chose pouvait se faire à moindre coût. Cependant, si elles se révélaient à terme non fondées, elles auraient eu dans un premier temps un rôle essentiel, décrire le monde observé en catégories intéressant directement l'observateur – par exemple se méfier d'un animal encore inconnu pouvant se révéler dangereux.

Ce qui est par contre essentiel dans la démarche consistant à accumuler les plus grandes masses de données possibles est de disposer du plus grand nombre de capteurs possibles. Le naturaliste du 19e siècle perdu dans la forêt était à cet égard limité dans le temps et dans l'espace. Mais s'il avait disposé de caméras numériques portées par des drones, d'immenses bases de références accessibles par wifi (comme celles que Google envisage de mettre à la disposition des porteurs de Google glass), la forêt la plus dense n'aurait pas eu longtemps de secrets pour lui. Certes, il aurait pu faire encore des erreurs de diagnostic, décrivant un monde n'existant pas en réalité, éventuellement peuplé d'espèces jugées a priori dangereuses alors qu'elles seraient au contraire bénéfiques, mais dans l'ensemble son efficacité en temps que scientifique n'aurait pas été inférieure à celle du scientifique classique.

Le lecteur transposera facilement cette situation à celle découlant de l'observation d'une zone urbaine par des milliers de caméras de surveillance, drones et capteurs divers. Beaucoup d'alertes injustifiées seront lancées, à la suite d'incidents dans les logiciels de reconnaissance.

En fait, comme ne le disent pas assez Viktor Mayer-Schonberger et Kenneth Niel Cukier, les deux méthodes d'analyse du monde sont complémentaires et doivent être menées en parallèle. Si (en changeant d'échelle) j'observe le cosmos, j'ai besoin d'étudier avec la plus grande précision possible l'objet X431- copernicus situé dans la galaxie XYZ et parallèlement les pans entiers du ciel incluant cette galaxie et des milliards d'autres, étudiés ne fut-ce que sommairement par un grand nombre d'instruments différents.

Les observateurs et leurs secrets

Cependant, comme toujours lorsqu'il s'agit d'observer le monde aussi scientifiquement que possible, afin d'en tirer des hypothèses et lois susceptibles de le décrire, les données élémentaires, même numérisées, même en masse, ne suffisent pas. Il faut des observateurs, c'est-à-dire des cerveaux, qui décident de s'y intéresser. Ces observateurs doivent en conséquences être porteurs de projets pour lesquels ces données trouveront une signification. Les observateurs, leurs projets de connaissance scientifique, les conclusions tirées des données qu'ils ont sélectionnées, ne sont pas universels, mais relatifs. Il s'agit, pour reprendre les termes de Mioara Mugur Schaechter souvent citée dans nos articles, d'une méthode de conceptualisation relativisée, inspirée de l'approche du « réel » subatomique utilisée par la mécanique quantique. Dans tous les cas, il ne faudrait donc pas prétendre décrire des « réels » en soi, intangibles, qu'il s'agisse de faire appel à de grosses ou petites données, mais de réels résultant d'une interaction chaque fois spécifique entre des observateurs-acteurs, des instruments et un univers profond a priori inobservable constituant le tissu de la réalité dont nous sommes des éléments.

En fonction des circonstances de la lutte pour la survie que nous menons au sein de ce monde, nous serons conduits à choisir entre des représentations aussi rigoureuses que possible, inspirées de la méthode scientifique hypothético-déductive, ou de représentations nécessairement plus sommaires inspirées des méthodes statistico-probabilistes. En tant qu' Européens, nous n'avons aucune raison d'abandonner les premières, dans lesquelles nous avons excellé depuis le siècle des Lumières, au profit des secondes, dans lesquelles excellent aujourd'hui les Américains, armés des impressionnants moyens technologiques et politico-économiques numériques dont ils ont su se donner une maitrise quasi absolue. Nous devrions en fait être capables selon les circonstances et les besoins, de recourir aux unes comme aux autres.

Ajoutons un point essentiel. Viktor Mayer-Schonberger et Kenneth Niel Cukier n'ont pas voulu dans leur ouvrage donner la moindre information précise sur les méthodes statistico-probabilistes utilisées par les ordinateurs géants des gestionnaires de Big Data. Il s'agit en effet de l'arme fatale permettant de gagner ou perdre des milliards en Bourse, désorganiser les défenses d'un adversaire, inonder le monde d'hypothèses impossibles à vérifier. On en connaîtra plus sur ces sujets – difficiles - en lisant les ouvrages de Alain Cardon sur notre site que dans Big Data. Il est possible aussi de commencer à étudier un peu sérieusement les conférences et communications consacrées par des scientifiques désintéressés – il en reste quelques uns – au monde mystérieux et évolutifs de ce que l'on nomme désormais les « algorithmes » appliqués aux masses de données.


En savoir plus
* Slate.fr. Essayez de retrouver un terroriste caché dans des gigaoctets de métadonnées http://www.slate.fr/story/74433/metadonnees-terroriste-retrouver
* Alliance géostratégique. Sun Tzu a dit : « Tianhe-2 vaincra Titan » http://alliancegeostrategique.org/2013/07/01/sun-tzu-a-dit-tianhe-2-vaincra-titan/#more-16439
* Electrosphère. Le cauchemar kafkaïen de l'État cyberprétorien http://electrosphere.blogspot.fr/2013/06/le-cauchemar-kafkaien-de-letat.html

 

Retour au sommaire