[TechDays2012] NoSQL et BigData : les approches de Microsoft

Session très générale sur NoSQL et BigData. Je n’ai pas les noms des orateurs, mais je ne vais pas les rechercher, parce qu’honnêtement, je ne peux pas dire que la session ait été bonne, et ce n’est donc pas la peine d’associer leurs noms à cet article.

La personne parmi les trois qui avait le plus un profil commercial a accaparé le micro pendant la quasi-totalité de la session, qui a fini un quart d’heure en retard et en expédiant les derniers sujets, alors que les deux intervenants techniques ont eu droit à dix minutes de présentation. Le fait que le discours soit truffé de “effectivement” me fait penser que l’orateur cherche à nous présenter comme quelque chose qui tombe sous le sens une solution que n’est pas vraiment adaptée.

Le fait de parler de ZettaOctets et de YottaOctets, par exemple, fait penser que les erreurs de la BI n’ont toujours pas été assimilées : c’est plus facile d’augmenter la taille de données (et de s’ébahir sur le fait que ça représente une pile de DVD qui va de la Terre à la Lune) que de digérer de la qualité dès le début.

Bon, j’arrête mon mode ronchon, et je donne les quelques notes que j’ai prises…

Les paramètres de Big Data sont :

  • La volumétrie
  • La variété des données (hétérogénéité des sources et des formes)
  • La vélocité des données (vitesse de production)
  • La variabilité des données (interprétation possible de plusieurs manières sur une donnée unique)

Les typages de données sont :

  • Données structurées : SGBDR
  • Données semi-structurées : logs, fichiers XML, données de capteurs, etc.
  • Données non structurées : informations textuelles issues de Twitter, de mails, de blogs, etc.

Fast Track SQL Server = Symetric Processing / Parallel Data Warehouse = Massive Parallel Processing.

Le principe de Fast Track est tout d’abord d’avoir le plus grand équilibre possible entre les performances de toutes les composantes : CPU, cache, switch, LUN, disk, etc. En association avec des constructeurs, Microsoft permet donc de débarrasser les utilisateurs de toute la partie validation et choix d’architecture physique.

En MMP, la Landing Zone sert de tampon pour les données récupérées des ETL et à poser sur la base de données MMP. Les petites tables de dimension sont répliquées sur chacun des nodes pour pouvoir améliorer les performances.

L’une des solutions de Microsoft pour le Big Data est de proposer de faire du Scale Out sur SQL Azure. La limite de taille est alors contournée par une approche de fédération, qui consiste en un sharding des données qui sont partagées sur des nodes Azure différents. Il sera possible dès cette année de laisser les fédérations décider du nombre de machines à ajouter et du mode de re-partitionnement pour que les performances suivent (ou à l’inverse de fusionner en retour si les requêtes tombent, de façon à réduire les coûts). Ce qui est surtout intéressant dans ce cas est que les petites instances ne sont pas chères du tout, et qu’on peut alors avoir de très bonnes performances par l’utilisation de multiples petits serveurs.

Dans SQL 2012, il sera possible de faire des BLOB en FileStream, sur des fichiers stockés en dehors de la base.

La première partie de la session s’arrête, heureusement : beaucoup trop théorique, présentée par quelqu’un qui n’était visiblement pas technique, et avec une capacité oratoire limite pour ce genre d’évènement.

Reporting Service, PowerPivot, PowerView et le connecteur ODBCHive sont ensuite mis en oeuvre pour exposer de la donnée Hadoop. http://www.hadooponazure.com pour aller tester un cluster, en se basant sur ASV pour aller taper sur nos blobs Azure.

Plugin Hive pour Excel dans les downloads sur HadoopOnAzure. Ensuite, l’icone est dans l’onglet Data. Il ne faut pas oublier par contre d’ouvrir le port ODBC.

Malheureusement, la démo après n’est pas très fluide non plus. On ne comprend pas bien ce qui est expliqué. Pourtant, ça partait bien avec un des orateurs qui, pour une fois, expliquait DE ZERO comment faire fonctionner, en nous donnant tous les pointeurs nécessaires pour pouvoir télécharger, trouver où est l’outil au premier lancement, etc.

Il est possible dans SQLServer Reporting Server de créer des relations pour passer d’un rapport à l’autre. Une dernière petite démo de PowerView, et on est déjà en retard… Là aussi, un peu dommage d’aller tellement vite, car ça se fait au détriment de la compréhension du rapport.

Daytona est une implémentation Map/Reduce native, par contre la conférence ne dit rien de plus sur l’avenir de cette plateforme. En en discutant ensuite avec un Microsoftee, il semblerait que ce ne soit pas tellement d’avenir, et qu’il vaille mieux parier sur Hadoop.

StreamInsight est une solution de Complex Event Processing par Microsoft : abonnement à des capteurs + moteur de règles + système d’alerte. ll existe une version pour Azure de cette technologie.

Au final, très peu d’interactivité entre les orateurs qui avaient en plus à échanger leur micro, des démos pas bien expliquées, mais au moins de bons pointeurs pour savoir comment commencer à tester par nous-mêmes.

About JP Gouigoux

Jean-Philippe Gouigoux est Architecte Logiciel, MVP Connected Systems Developer. Il intervient régulièrement à l'Université de Bretagne Sud ainsi qu'à l'Agile Tour. Plus de détails sur la page "Curriculum Vitae" de ce blog.
This entry was posted in Retours and tagged , . Bookmark the permalink.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Captcha Captcha Reload