Data = connaissance ?

L’énigme

Le titre reste à l’état de question, parce qu’honnêtement, je n’ai pas de réponse intelligente à fournir, mais seulement quelques pistes de réflexion. Pour moi, cette réflexion a commencé lorsqu’en préparant un cours sur le futur de la BI (ou plutôt son absence de futur dans son état actuel), je suis tombé sur la déclaration suivante :

image

Je dois avouer que la première fois que j’ai lu ceci, mon premier réflexe a été de rejeter complètement cette analyse : comment pouvait-on (un scientifique, de surcroit) confondre la donnée avec la connaissance. Prétendre que Google était meilleur non pas par une supériorité de ses algorithmes, donc de son intelligence de fonctionnement, mais par un stupide empilement de données plus haut que celui de ses concurrents me paraissait le comble de l’absurdité. C’était pour moi comme dire qu’un cerveau avait plus besoin de neurones que de synapses…

Dans le même temps, j’étais en train d’expliquer à mes étudiants que l’approche centralisatrice de la Business Intelligence avait échoué suite à la course au volume de données, les entreprises se gargarisant de leur data warehouses de plusieurs centaines de téraoctets alors que les bénéfices retirés ne s’élevaient au mieux qu’au dixième des sommes investies… Dès lors, comment expliquer cette phrase ?

Un début de réponse

En m’informant sur le mouvement Big Data, je crois que j’ai compris ce que Norvig voulait dire. Lorsqu’on cherche une information sans connaitre à l’avance les caractéristiques précises de son apparition, la recherche de ces “signaux faibles” se fera d’autant mieux que l’échantillon qu’on recherche est le plus grand possible.

Si l’on prend l’exemple d’une recherche d’intrusion dans des logs de serveurs web, il s’agit de trouver des connexions qui ne se comportent pas comme les autres. Une approche “brute” est de regarder les connexions la nuit, par exemple, mais ceci peut se faire sans approche de cluster, il suffirait d’un cube. Si on cherche à trouver des comportements suspects non pas par une explication rationnelle, mais par la simple répartition statistique anormale qu’ils montrent, il nous faut évidemment beaucoup plus de données, et surtout une méthode de recherche moins orientée, mais balayant tous les critères.

On peut extrapoler ceci à une recherche d’association de mots-clés comme ce que Google fait avec son moteur de recherche et surtout les sources multiples dont il dispose pour analyser les traces laissées par chacun de nous sur ce même moteur. Dans ce cas, je comprends effectivement qu’une masse plus grande de données puisse conférer une qualité finale de traitement meilleure.

Mais il manque un truc

Il manque quand même quelque chose : déjà, qui dit plus de données dit également des méthodes plus performantes pour les traiter dans un laps de temps aussi réduit que les autres. Et là, nous parlons bien d’algorithmique. De la même manière, la mise en place et l’exploitation de systèmes Big Data a nécessité une activité de recherche qui n’a rien à voir avec la taille de données à traiter. Il est donc vrai que c’est la masse de données qui fait la pertinence de l’indexation de Google, mais je trouve faux de présenter cette masse de données comme la seule raison de l’avance de Google. C’est peut-être de la modestie de la part de Norvig, mais toute ces données ne serviraient à rien s’il n’y avait pas une énorme intelligence de gestion derrière.

Une autre remarque : l’approche Big Data est peut-être efficace, mais d’une certaine manière, elle apparait comme une sorte de pis-aller par rapport à l’algorithmique : on cherche des signaux faibles car on est incapable de mettre au point des traitements et algorithmes permettant d’obtenir le même résultat de manière directe.

Il ne manque pourtant pas de pistes pour améliorer l’intelligibilité de la donnée sur le web : MicroData, web sémantique, utilisation des RDF ou des micro-formats, etc. Tim Berners-Lee pousse cette approche. Au lieu de faire tourner des clusters énormes pour déduire à partir d’un mot-clé et de l’ensemble d’une base de connaissance qu’il s’agit d’une personne et qu’elle habite en France, ne serait-il pas plus logique de faire l’effort de rajouter une identité FOAF sur la citation du nom de la personne ? On en revient toujours à l’optimisation des processus nécessaires au GreenIT : un petit effort sur le développement pour gagner énormément de ressources…

Pour finir

Une conclusion à la normande, ce coup-ci : peut-être bien que Norvig a raison, mais peut-être bien aussi que Berners-Lee est plus visionnaire… Je crois avoir compris ce que sous-entendait le propos de Norvig, mais personnellement, je reste convaincu qu’un traitement plus intelligent des données nous amènera plus loin que l’application de méthodes très gourmandes pour des résultats similaires. Maintenant, je ne prétends pas à avoir la même vision que le “Chief Scientist” de Google : ceci est juste l’état de ma réflexion à ce jour…

About JP Gouigoux

Jean-Philippe Gouigoux est Architecte Logiciel, MVP Connected Systems Developer. Il intervient régulièrement à l'Université de Bretagne Sud ainsi qu'à l'Agile Tour. Plus de détails sur la page "Curriculum Vitae" de ce blog.
This entry was posted in Uncategorized and tagged . Bookmark the permalink.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Captcha Captcha Reload