Blog de JP Gouigoux | Retours d'expérience .NET d'un architecte logiciel, sur des technologies "that get the job done"

MLStudio : l’IA pour les nuls !

Posted on 26/02/2018 by JP Gouigoux

Imaginons que vous souhaitiez utiliser les capacités de l’Intelligence Artificielle mais que vous ne connaissiez rien aux réseaux neuronaux, régressions logiques, perceptrons et algorithmes bayésiens. C’est tentant ! Vous entendez parler d’IA et de Machine Learning dans tous les magazines et les promesses sont alléchantes : trouver des réponses dans des données disparates ou réaliser des programmes prenant des décisions sans avoir à coder, et donc sans avoir à comprendre dans le détail toutes les subtilités des causes et des conséquences métier. Or, comprendre tous ces modèles est affaire de spécialistes. Mais, comme pour le reste de la programmation, on aimerait que ces “couches basses” soient cachées et que nous puissions les utiliser sans trop nous poser de questions sur leur fonctionnement interne.

Il se trouve que le Microsoft Azure Machine Learning Studio réalise exactement ceci pour vous.

Prenons un exemple que j’ai déjà expliqué dans ce blog, à savoir la reconnaissance de lettres exprimées par les squelettes capturés par une Kinect. C’est un TP que je fais avec des étudiants depuis quelques années et qui fonctionne plutôt bien pour les amener à pratiquer le Test Driven Development, comme expliqué sur cette page.

L’algorithme que les étudiants doivent arriver à mettre en œuvre consiste à trouver les lettres représentées par le haut du corps lors de la chorégraphie “YMCA”. A partir de cinq points définis par une coordonnée X et une coordonnée Y (soit au total dix paramètres), la fonction étudiée doit renvoyer Y, M, C, A en fonction des positions des mains et coudes gauche et droit et du centre des épaules, ou bien un tiret si le squelette ne forme aucune lettre reconnue. Par exemple, ceci représente la lettre Y :

Certains étudiants créent des algorithmes basés sur les angles, d’autres sur les distances selon les deux coordonnées, d’autres enfin s’égarent quelque peu en pensant se baser directement sur des zones de coordonnées (ce qui supposerait que la personne soit toujours bien au centre de la vision du périphérique, bref limiterait fortement la pertinence de l’algorithme). Je me suis récemment demandé si des mécanismes simples d’IA pourraient leur être montrés à titre d’exemple. L’algorithme n’est en effet pas très complexe à trouver, mais il leur faut en général un peu d’aide du prof pour arriver à le réaliser en deux heures.

Serait-il plus rapide d’oublier toute notion d’algorithme et d’apprendre simplement à une intelligence artificielle à reconnaître les différentes postures ?

C’est la question à laquelle je vous propose de répondre en vous accompagnant sur cet exemple avec ML Studio. La première étape consiste à vous connecter à https://studio.azureml.net/. Si vous n’avez pas de compte Azure, le site vous propose de bénéficier des 150 € gratuits fournis par Microsoft.

Une fois connecté, ML Studio vous accueille avec le liste des “experiments” que vous avez déjà mises en place, et le bouton en bas à gauche vous permet d’en créer une nouvelle :

Le tutoriel est très bien fait (et je ne vais pas faire grand-chose de différent dans cet article) et les autres exemples sont d’excellentes façons de prendre en main les fonctionnalités, mais pour l’instant, nous allons simplement créer une “blank experiment” :

Comme vous le verrez sur l’interface qui apparaît, une “expérience” ML Studio est composé d’un graphe de modules qui sont liés les uns aux autres. Le tout premier, de type Import Data, a comme son nom l’indique pour but d’importer la donnée qui va servir à mettre en œuvre notre moteur d’IA :

Une fois le module posé dans le graphe, nous allons le paramétrer pour pointer sur le fichier d’apprentissage (exposé dans notre cas sur un simple serveur web pour y accéder par HTTP) :

Il est important de s’arrêter sur le contenu du fichier pour bien comprendre l’idée de cet article. Le fichier CSV contient des ensembles de points produits par la Kinect et qui ont systématiquement été créés pour produire des postures à reconnaître :

Pour créer ce fichier, des postures diverses ont été prises devant la Kinect pour “montrer” au système à venir ce qu’est une posture de type “Y” ainsi que toutes les autres postures et en particulier des postures neutres pour que l’algorithme apprenne aussi quand il doit renvoyer simplement un tiret, pour dire que le squelette ne forme pas une lettre reconnue. Le plus simple est alors de travailler avec deux personnes. Une pose avec des mouvements divers et la seconde enregistre les coordonnées avec la lettre (ou l’absence) qu’il considère correcte. Ce fichier montre ainsi de nombreuses positions, neutres ou “valides” – au total 249.

Sans rentrer dans le détail des algorithmes (c’est bien le but de montrer qu’on peut créer un moteur d’IA sans avoir à connaître le fonctionnement interne), il faut juste savoir qu’un “modèle” s’entraine à partir de ces données à les reconnaître, mais qu’il est important de se garder des données de côté pour pouvoir évaluer sa pertinence en le testant avec des situations qu’il rencontre pour la première fois. Pour cela, il est habituel de commencer par couper les données en deux, en ajoutant un module Split Data.

Dans notre cas, il est essentiel d’activer l’option “Randomized split”, sinon les situations correspondant aux différentes lettres ne seront pas mélangées et le modèle aurait alors très peu de chances de fonctionner car le fichier utilisé prend les lettres à apprendre dans l’ordre, avec des formats neutres entre les différents paquets d’échantillons équivalents. Le lien entre les modules se fait simplement par un glisser-déposer. Assez logiquement, le module d’import possède une sortie et celui de découpage en montre deux, que nous allons brancher pour la première sur le module d’apprentissage (Train Model) et la seconde sur celui d’évaluation (Score Model) :

L’interface utilise des codes de couleur verte ou rouge pour indiquer quelle entrée est compatible avec la sortie sélectionnée sur un autre module, ce qui facilite encore l’utilisation. Le premier paramètre attendu par le module Score Model est – logiquement – le modèle qui a été “entraîné”. Nous les relions donc comme suit, ce qui aboutit à la suppression de l’icône d’erreur sur Score Model :

Pour ne plus avoir d’erreur sur Train Model, il faut lui donner en paramètre un algorithme de Machine Learning, en l’occurrence un mécanisme de classification. C’est ce que nous allons faire dans notre cas : classer des ensembles de points dans des catégories différentes, auxquelles nous donnerons des noms (dans notre cas, de simples lettres). Des algorithmes d’IA sont spécialisés dans la classification à deux classes (déduire si une entrée va dans une entrée ou une autre), d’autres dans la classification multi-classes. Nous allons utiliser un d’entre eux, à savoir le Multiclass Decision Forest :

Le module Train Module est encore en erreur car nous n’avons pas spécifié quelle colonne le modèle devait s’entraîner à trouver. Pour cela, il faut sélectionner ce module pour afficher ses options (voire les dérouler si nécessaire) et cliquer sur Launch column selector :

Dans la fenêtre qui s’affiche, au lieu de sélectionner les colonnes par leur nom, nous allons les sélectionner par leur indice dans le fichier. En effet, le fichier CSV ne contenait pas d’entête ; mais nous aurions pu travailler autrement, et il aurait fallu dans ce cas indiquer au module Import Data que la première ligne contenait les noms de colonnes.

Ci-dessus, nous indiquons que la colonne contenant les lettres indiquées est la onzième du fichier (attention, l’index de début est à 1, contrairement aux habitudes des développeurs de commencer à 0, mais cela marque aussi le fait que ce type de “studio” est destiné à faciliter le travail à des personnes non techniques).

Arrivés à ce stade, nous allons simplement rajouter un dernier module – à savoir Evaluate Model – permettant l’analyse statistique du score du modèle. L’évaluation se fait en effet en obtenant un Score puis en l’évaluant, avec comme nous le verrons des sorties numériques et graphiques permettant de mieux comprendre ce score :

Le modèle est prêt à être lancé grâce au bouton Run. Après quelques minutes au maximum (notre modèle n’est pas très complexe), un clic droit sur le module d’évaluation du modèle fait apparaître le menu contextuel suivant, dans lequel nous allons choisir Evaluation results / Visualize :

Les métriques affichées montrent une bonne précision moyenne du modèle, de plus de 95% :

Comme nous sommes dans un algorithme de multiclassification, nous avons également la précision sous forme de matrice :

La lecture en est assez simple. Par exemple, lorsque la classe est effectivement un M, il y a 86,7% de chance que la prédiction soit un M et 13,3% de chance que la prédiction ne reconnaisse pas le signe M (symbole tiret renvoyé).

En ajoutant quelques lignes de données, il serait assez simple d’amener ce modèle vers des taux de prédiction encore meilleurs, et – comme promis – nous n’avons pas écrit une seule ligne de code pour obtenir cet algorithme, mais nous n’avons pas non plus eu à plonger dans des calculs mathématiques complexes.

Et cerise sur le gâteau, le modèle est extraordinairement facile à exploiter une fois créé. Il suffit de cliquer sur l’icône Set up web service pour que ML Studio crée un modèle de prédiction en ligne :

Le modèle créé peut alors être exposé en ligne grâce à l’icône Deploy web service (après l’avoir toutefois lancé avec Run, comme il s’agit d’une nouvelle “expérience”) :

Le résultat est une API qui va vous permettre de consommer cet algorithme de prédiction par IA depuis n’importe quelle application ou périphérique intelligent, avec en plus un mode batch, et une sécurisation par clé d’API :

En suivant le lien Request / Response, vous arrivez sur une page de documentation extrêmement complète, avec l’adresse à utiliser pour déclencher une prédiction, les headers HTTP supportés, des exemples de corps de requête, etc. :

Il y a même les squelettes de code C#, Python ou R nécessaires pour appeler l’API !

Bref, en une demi-heure maximum (c’est-à-dire moins que ce qu’il m’a fallu pour écrire ce post), vous avez un modèle de prédiction IA disponible en ligne, avec des machines derrière pour obtenir des performances intéressantes, et ce pour un investissement en connaissance de l’IA quasiment nul et un coût d’exposition très réduit. Je me demande quand je vais avoir mon premier étudiant qui réalise mon TP en remplaçant l’algorithme codé par une version basée sur une IA. Il y a quelque temps à peine, je pensais que ça prendrait plus de temps que de juste réfléchir au meilleur moyen d’implémenter un algorithme en code, mais quand je vois la vitesse à laquelle on peut réaliser un moteur de prédiction, le plus dur sera juste de capturer les postures d’apprentissage…

Posted in Uncategorized | Leave a comment

Un nouveau WebBrowser embarqué dans WinForms

Posted on 02/02/2018 by JP Gouigoux

L’intégration d’un navigateur embarqué dans une application native Windows est un excellent moyen de faire de la migration progressive d’interface, en implémentant progressivement des écrans en web tout en les rendant utilisables dans une application Windows. Moyennant quelques efforts de programmation finalement assez légers, une authentification correcte peut être gérée, des évènements du DOM peuvent être récupérés et on arrive à un bon niveau d’interop.

Seulement, voila, le contrôle WinForms WebBrowser est assez vieux et on était loin d’avoir toute la puissance des navigateurs modernes… jusqu’à ce que Microsoft nous fasse la surprise d’intégrer Awesomium dans les contrôles WinForms de Visual Studio 2017 ! Et ça change tout ; pour preuve, un petit benchmark très simple en appelant http://lemonde.fr sur le WebBrowser (à gauche) et sur le navigateur embarqué Awesomium (à droite). Dans les deux cas, il n’y a qu’une ligne de code pour naviguer sur le contenu dans le code derrière le bouton respectif…

A gauche, donc, 100 Mo de mémoire consommés pour arriver à un affichage lent et inutilisable, avec des erreurs de script à n’en plus finir. Bref, un résultat pourri. A droite, seulement 30 Mo de mémoire consommés et le résultat saute aux yeux comme bien meilleur.

Je dois avouer que je n’avais pas vu ce contrôle arriver dans ma veille ni sur aucun blog ni sur les annonces de Microsoft. C’était donc une surprise de tomber là-dessus en faisant un test de WinForms dans Visual Studio 2017, mais pour le coup, c’est vraiment une excellente surprise !

Posted in Uncategorized | Tagged WINFORMS | 2 Comments

Retours sur l’atelier Architecture évolutive des SI expliquée avec des Lego™

Posted on 11/12/2017 by JP Gouigoux

Trois semaines ou presque passées depuis le 23/11, jour de l’atelier organisé par Agile Rennes à la French Tech, où j’ai eu le plaisir d’expliquer l’urbanisation des SI par des métaphores utilisant les Lego, accompagné de Benoît Chanclou (merci Benoît d’être venu malgré un rhume carabiné !).

J’ai désormais un peu de feedback, donc après un résumé pour ceux qui étaient absents et me l’ont demandé, je détaillerai ce qui va être amélioré pour la prochaine fois où je jouerai cet atelier.

Objectif

Ce qu’on cherche à montrer dans cet atelier est qu’il existe des méthodes permettant en informatique de mettre en œuvre une industrialisation telle qu’elle existe dans les autres métiers plus vieux, comme l’industrie traditionnelle, l’automobile, la construction d’ouvrages, etc.

Aujourd’hui, en informatique, la tendance est à tout le temps tout réécrire, tout simplement parce qu’on n’a que récemment trouvé la définition de ce que pouvait être une brique renouvelable. Après les routines, les librairies, les composants, les composants distribués, COM, COM+, DCOM, DNA et tout le bazar, on sait maintenant que la brique doit être fonctionnelle (approche SOA). Mais comme il a fallu quelques dizaines d’années pour standardiser le filtre à huile de nos voitures, il va falloir du temps pour réaliser la même chose en informatique. Heureusement, les normes sont présentes et la techno est désormais prête (REST, microservices, EIP, diagramme 4 strates pour l’urbanisation, etc.).

Pour rappel, les critères d’industrialisation sont :

prédictibilité
normalisation
capacité à mesurer la performance

Atelier 1

Le premier atelier consiste à trouver un moyen de rendre “interfaçable” une tour et un corps de château. L’ensemble doit correspondre au modèle ci-dessous, le but étant de pouvoir facilement changer la tour pour une plus grande.

Il s’agit de la première approche vers une interface contractuelle. Un retour important pour un prochain atelier est de mélanger les personnes connaissant déjà le Lego et celles n’ayant que peu touché aux briques magiques dans leur enfance. Les constructions, sinon, manquent parfois un peu de solidité. Or, le but est de ne pas sacrifier complètement celle-ci au caractère interchangeable.

Atelier 2

On passe à quelque chose de légèrement plus complexe, avec une modélisation des messages véhiculés dans un Système d’Informations sous forme de plaque contenant quatre “pistes”. La présence ou l’absence de crémaillère permet de spécifier des qualités d’une personne tandis qu’une piste avec des briques de couleur symbolise son identité, en permettant de nombreuses combinaisons. Mine de rien, avec seize couleurs différentes sur 4 emplacements, on obtient déjà 65000 et quelques codages !

La porte réalisée pour le passage de cette plaque correspond à l’interface, bref au contrat à respecter pour pouvoir laisser entrer et sortir des plaques standard. Le sens est essentiel car la porte n’est pas symétrique (vu pendant l’atelier… et corrigé aussitôt).

Ainsi, un module de traitement va être composé de deux portes, une pour l’entrée et l’autre pour la sortie. Comme les faces opposées des portes peuvent se clipser, on obtient bien la capacité de réaliser ce qu’on veut à l’intérieur des modules sans présupposer de l’ordre dans lequel ils vont être utilisés :

La créativité de tous a donné lieu à de joyeux délires (le passage de la plaque qui bat les œufs en neige, etc.), et deux perles que j’ai eu le temps de prendre en photo, à savoir le siège qui se penche pour les employés et qui éjecte les cadres :

et aussi le système de modulation du son et des lumières en fonction des privilèges associés à la personne (belle utilisation du gros engrenage, en prise directe sur la sirène tournante) :

Atelier 3

Le temps manquant sur une soirée (l’atelier dure plutôt une journée), les deux derniers ateliers ont été réalisés sous forme de démo. Le premier montrait comment on pouvait modéliser en Lego une activité d’orchestration. Les plaques à crémaillères contenaient ainsi la “recette” des opérations à lancer, et elle était exécuté par un moteur qui lançait des rotations des axes standards de sortie en fonction, ces derniers étant reliés vers des “effecteurs”, métaphore des services logiciels (non montrés ci-dessous) :

Le lien était ensuite fait sur de véritables processus d’orchestration de Systèmes d’Information :

Atelier 4

Enfin, le dernier atelier, également réalisé sous forme de démo, montrait une approche légèrement différente de l’intégration de services, à savoir une étape entrée / sortie correspondant à une portion d’un ensemble en mode “chorégraphie” :

La limite dans la métaphore (remontée en feedback par Benoît) était que l’entrée manuelle ne modélise pas suffisamment clairement le fait que cette entrée peut également provenir d’un évènement déclenché dans un autre module. J’ai acheté quelques plaques supplémentaires pour pouvoir modéliser ces évènements par la suite. Idéalement, une rotation de l’axe pourrait enclencher un interrupteur. Pour terminer le traitement, il serait également possible de fermer l’interrupteur lorsqu’une plaque de commandes (comme celle utilisée ci-dessus) serait utilisée.

Bref, il va falloir faire quelque chose de plus sophistiqué pour mieux montrer la réalité d’un SI. Ce sera d’ailleurs l’occasion de mettre plus en avant les EIP, qui ont été montrés en métaphore Lego, mais pas manipulés par manque de temps. En préparant un système complet et en rendant les blocs “EIP” plus robustes, il devrait être possible de demander aux participants de créer leur propre médiation complexe.

Au final, le but est de montrer qu’il est (relativement) simple, pourvu que les messages soient correctement normalisés, de rendre facile pour les utilisateurs de gérer une chorégraphie simple (une commande pour un évènement), un peu à la mode de ce que font les applications grand public de type IFTTT ou Microsoft Flow.

Derniers feedbacks

Un autre point à régler est que les métaphores ne sont pas les mêmes entre les deux derniers ateliers, ce qui rend plus complexes la compréhension. D’où l’idée de les rejoindre tous les deux dans un seul ensemble, quitte à ce qu’il soit plus gros… Le message resterait toujours la plaque de base, et les EIP pourraient être utilisés pour modifier le fonctionnement des axes en sortie avec des EIP. Les effectueurs pourraient eux-mêmes déclencher d’autres moteurs qui effectueraient des actions complémentaires.

Bref, on peut encore largement améliorer cet atelier, mais l’essentiel a été rempli lors de cette session Agile Rennes : les participants étaient contents, ils ont déclaré que la métaphore les avaient aidés à comprendre les principes exposés et, magie de la manipulation par rapport à l’image, 70% de ce qui a été compris est désormais acquis (au lieu de 10% avec des diapos de présentation) !

Posted in Retours | Tagged Architecture, Lego, Urbanisation | Leave a comment

Automatisation des attaques

Posted on 22/10/2017 by JP Gouigoux

Ca devient vraiment n’importe quoi… Pour les besoins de l’écriture de mon prochain bouquin, j’ai ouvert un cluster Docker Swarm sur un port 2375, donc sans passer par toute la tambouille des certificats, vu que ce n’est pas pour de la production mais pour des exercices sur quelques heures à peine.

A peine revenu de manger le midi, qu’est-ce que je trouve sur mon cluster ? Un processus pirate de minage de monnaie virtuelle :

Et impossible de se débarrasser de ce pou, à chaque fois que je kill le conteneur, un autre apparaît quelques minutes après au mieux.

Je jette un œil aux logs d’une application Node.js que j’ai exposée sur le 8080, et là, même chose : une série complète d’appels “de reconnaissance” sur des URL standards de PhpMyAdmin et Struts2 !

Comme je n’ai besoin du cluster que pour quelques heures, je ne vais pas me taper toute la procédure de sécurisation, mais quand même… ouvrir un port connu sur internet, c’est devenu une activité équivalente à se balader au milieu de hyènes avec un steak accroché au pantalon : il vaut mieux foncer si on n’est pas en 4×4 blindé.

Posted in Sécurité | Tagged Azure | Leave a comment

L’ergonomie, la vraie !

Posted on 07/03/2017 by JP Gouigoux

Pour moi, c’est ça la vraie ergonomie : commencer à travailler sans connaître une fonctionnalité du logiciel, que celui-ci la fasse apparaître en reconnaissant le travail que vous cherchez à accomplir et que le résultat soit immédiatement celui voulu.

Excel dans ses fonctionnalités d’aide à la transformation de données

Trop fort, Excel (copyright Thomas G. :-))

Posted in Data | Leave a comment

MVP 2016 !

Posted on 02/10/2016 by JP Gouigoux

C’est reparti pour un an Sourire

Résultat de recherche d'images pour "logo mvp microsoft"

Fier d’avoir été désigné MVP pour la 6ème année consécutive !

Posted in Uncategorized | Tagged MVP | Leave a comment

Azure Container Service pour les grands débutants

Posted on 24/04/2016 by JP Gouigoux

Grande nouvelle pour les amateurs de Docker la semaine passée, à savoir la disponibilité générale de l’offre Azure Container Service, qui vous permet de déléguer au cloud de Microsoft toute la tringlerie sous-jacente à Docker, et vous occuper uniquement de la partie applicative.

En gros, tout ce qui est de l’infra, vous oubliez, à savoir :

tout le hardware, bien évidemment puisque c’est du cloud ;
l’installation du démon Docker ;
la gestion du cluster ;
le paramétrage de Swarm ;
etc.

Azure Container Service s’occupe de tout cela, et pour mettre en ligne une application que vous avez créée sous forme de conteneurs, il ne vous reste plus qu’à pointer votre client Docker sur le service (par une variable d’environnement), et lancer un docker run ou un docker-compose up ! Pour les gens comme moi qui sont plus à l’aise sur le soft applicatif que sur l’installation de serveurs logiciels et leur paramétrage avec des contraintes réseau, il s’agit vraiment d’une bénédiction Sourire .

Pourquoi cet article ?

Le sujet est tout neuf et la documentation de Microsoft sur le sujet est très bien, mais il manque malheureusement quelques petits détails qui font que, pour un débutant complet, ça peut vite bloquer. Même si on a bien compris les concepts et qu’on connait les outils, il n’est pas toujours évident de savoir comment adapter l’exemple à notre besoin à nous, parce qu’il manque juste la petite phrase ou la capture qui vous indique où trouver l’information dont vous avez besoin.

Le but de cet article est de combler ces petits manques. Je vais donc reprendre le déroulé d’installation d’un cluster ACS, en renvoyant à la doc pour tout ce qui est parfaitement expliqué dedans, mais en me permettant des rajouts sur les quelques infos que j’ai pris un peu de temps à trouver.

Création du cluster

Une fois connecté sur le portail Azure, quand vous cliquez sur “Nouveau” et que vous lancez une recherche sur “Azure Container Service” comme indiqué dans la documentation, vous vous retrouvez avec beaucoup plus d’options que ce qui est indiqué. En particulier, il y a ce qui semble être des instances prédéfinies, dont la séparation en “test / production / large” – du coup – n’est pas du tout expliquée.

Le mieux est de rester sur la toute première option de la liste :

Quand vous arrivez à la première page de paramétrage, quelques indications supplémentaires ne font pas de mal. Tout d’abord, le User name est celui qui sera utilisé pour se connecter au service de cluster Docker que nous sommes en train de créer.

Ensuite, pour la clé publique, c’est sûr que c’est quelque chose de facile quand on est administrateur… Mais vu que l’utilité de Docker (enfin, de mon point de vue), est justement que des développeurs puissent déployer leurs applications de manière simple, un petit rappel ne fera pas de mal pour créer un certificat sous Windows, surtout que les liens auxquels la doc renvoie sont très complexes pour pas grand chose.

Donc, téléchargez d’abord PuttyGen (en faisant attention de ne pas télécharger ça n’importe où, bien sûr), puis cliquez sur le bouton Generate de l’interface, qui vous demandera alors de bouger la souris pour créer de l’entropie. Quand c’est terminé, vous voilà avec le contenu qui nous intéresse, et présélectionné en plus pour vous faciliter le travail :

Vous pouvez alors simplement copier le contenu et le coller dans l’interface Azure. N’oubliez pas de sauvegarder la clé privée (bouton Save private key). Si vous êtes juste en phase de test et que vous n’avez besoin que d’un niveau de sécurité limité, vous pouvez ignorer l’avertissement sur l’absence de mot de passe pour protéger le certificat, ce qui vous évitera de le retaper à chaque connexion du moment que vous êtes sur une machine sûre.

Pour le groupe de ressources, je vous conseille fortement d’en créer un dédié, car le processus va créer tellement de ressources que si on ne les regroupe pas, ou pire qu’on les mélange avec d’autres, ça va vite virer à la pétaudière… Enfin, je garde exprès l’emplacement Europe occidentale pour montrer un peu plus loin une autre limite de la documentation. Au final, l’étape 1 est remplie :

A l’étape 2, on part sur du Swarm plutôt que le choix DC/OS par défaut. Ensuite, à l’étape 3, pensez bien à voir les choix supplémentaires pour les machines. Si c’est juste pour tester le fonctionnement avec plusieurs agents (après tout, c’est bien pour de la distribution qu’on fait ça), augmentez le nombre mis à 1 par défaut, et profitez-en pour utiliser des machines un peu plus petites que celles proposées, de façon que ça coûte moins cher :

Si vous cliquez sur le lien Afficher tout à droite, vous aurez même accès à des instances de machines encore plus petites, ce qui peut être mieux pour le budget si vous ne faites que des essais. Après cela, les étapes supplémentaires sont juste des confirmations, et on peut lancer la création du cluster, qui va prendre quelques minutes.

Mise en place du tunnel SSH

Pour la suite, nous allons passer sur une VM avec un Ubuntu, vu que c’est quand même beaucoup plus courant d’utiliser le client Docker depuis un Linux. La première chose à mettre en place est le tunnel SSH pour accéder au système de gestion (management) du cluster.

Tout d’abord, il nous faut récupérer le fichier .pem depuis la clé que nous avons créée auparavant. Si elle ne l’est plus, il faut revenir la charger dans Putty avec le bouton Load puis utiliser la fonction Export OpenSSH key dans le menu Conversions et fournir un nom avec l’extension .pem. Le fichier sera alors posé sur le répertoire courant de la VM Linux.

La documentation donne une partie de la ligne de commande, mais oublie quelques points qu’il est pourtant nécessaire de préciser :

Au lieu d’installer le certificat, il est possible de simplement passer la clé par l’option –i (on lui donne alors juste le chemin du fichier .pem créé juste avant).
Le nom à utiliser avant l’arobase est le nom d’utilisateur, donc si on l’a changé dans l’étape 1, il ne faut pas oublier de le modifier dans la commande également.
La première partie de l’URL est composée du préfixe DNS choisi à l’étape 3 (dernière zone dans la capture correspondante plus haut) suivi de la chaîne mgmt.
La documentation ne donne pas les codes à utiliser pour les régions Azure. Dans l’exemple, il y a japaneast, donc on pourrait en déduire que la zone Europe occidentale est codée par europewest, mais c’est bien westeurope qu’il faut utiliser.
Enfin, attention car on est habitué à cloudapp.net, mais le domaine à utiliser est cloudapp.azure.com.

Une astuce que ne précise pas non plus la documentation est qu’on peut retrouver ceci dans le portail Azure. Pour cela, commencez par choisir le groupe de ressource créé (nom donné à la première étape), et localisez l’icone correspondant à un service et commençant par swarm-master-ip (dans la capture ci-dessous, la dernière ligne).

Une fois cette entrée sélectionnée, on peut facilement retrouver le nom complet à utiliser en allant dans les paramètres et en choisissant Propriétés :

Une dernière astuce est de rajouter l’option –vvv pour avoir le maximum de retours d’information de la commande SSH (mode verbose). Dans notre exemple, cela donnerait :

ssh -vvv -i ~/AzureContainerService.pem -L 2375:localhost:2375 -N azureuser@acsjpgmgmt.westeurope.cloudapp.azure.com -p 2200

Une dernière chose : la commande ne rend pas la main. On peut croire qu’elle ne fait rien quand on n’est pas en mode verbose, mais dans le cas contraire, on voit bien à la fin la phrase Entering interactive session, et le tunnel SSH sera ouvert tant qu’on n’entre pas un signal de terminaison avec le raccourci CTRL+C.

Le plus simple est alors de lancer un second terminal pour la suite.

Accès au cluster

Le reste est très simple donc la documentation ne manque rien :

export DOCKER_HOST=:2375

A part qu’une fois qu’on a lancé un docker run sur ce démon, il est nécessaire pour voir le résultat dans un navigateur de savoir où trouver l’URL de base, ce qui n’est pas évident dans la doc…

Là encore, on peut retrouver ce qu’il faut dans le portail Azure, en prenant dans la liste du groupe de ressources celle commençant par swarm-agent-ip et correspondant à l’icone des services :

En allant dans les propriétés (ou même directement dans le premier panneau qui reprend les paramètres essentiels), on retrouve l’adresse d’exposition du cluster :

Autre chose : inutile de se casser la tête à chercher où ouvrir les ports dans le cas d’un service de conteneurs, les principaux sont ouverts par défaut, comme le décrit la documentation :

Azure Container Service configured for Swarm showing agents and masters.

En espérant que ces quelques précisions aideront quelques uns à mettre en place plus vite un cluster Docker !

Posted in Retours | Tagged Azure | Leave a comment

Structurer et analyser des comptes bancaires avec Trifacta Wrangler

Posted on 10/04/2016 by JP Gouigoux

This article is also published in english on Trifacta’s blog

Explications

Je viens juste de finir l’écriture d’un livre sur l’Open Data, dans lequel je montre
comment chercher la donnée, puis la nettoyer, l’analyser et la mettre en forme. Afin
que le livre ne soit pas trop rébarbatif, ni pour le lecteur ni pour moi-même pour
l’écrire, je me suis fait un plaisir de tester plein d’outils divers et variés. Il reste bien
sûr de l’Excel et du QlikView, mais je suis tombé sur un outil que je ne connaissais
pas avant, et qui est vraiment top pour ce qui est du traitement des données non
structurées.

Il s’agit de Trifacta Wrangler, et je vous assure que c’est très différent de tout ce qu’on
a l’habitude de voir dans les outils de BI. Tout d’abord, l’ergonomie a été poussée
dans ses derniers retranchements. L’outil propose des suggestions sur les données. Je
suis en général réticent à ce genre d’approche, qui vise rarement juste, mais je dois
avouer que j’ai été bluffé par les capacités de Trifacta Wrangler.

Il se trouve que le projet est issu d’un projet de recherche de Stanford University,
mené par les docteurs Joe Hellerstein et Jeffrey Heer avec leur doctorant Sean
Kandel, et précisément avec le but de monter un système de suggestions probant. Au
final, le démonstrateur est extrêmement intuitif et permet d’atteindre des résultats
très rapidement, car il propose, à chaque action, des suggestions qui montrent le
résultat final si on applique cette proposition. Bref, l’utilisateur a un retour visuel
immédiat sur les choix possibles.

Depuis ce démonstrateur, Joe, Jeff et Sean ont lancé la société Trifacta afin de
continuer leur travail sur un outil que n’importe quel utilisateur sera capable
d’utiliser. En plus de ceci, Trifacta Wrangler est pensé dès le début pour distribuer les
calculs sur des machines séparées. On peut donc vraiment dire qu’il associe une
grande simplicité avec une puissance impressionnante.

En plus du livre sur l’Open Data, je me suis retrouvé à utiliser Trifacta Wrangler pour
débrouiller mes comptes bancaires. Il y a quelques semaines, je me suis rendu compte que mes impôts avaient beaucoup augmenté, et je voulais savoir si, sur les
dernières années, mes revenus avaient augmenté plus vite ou moins vite. J’avais une
idée en gros, mais mes fichiers de comptes ne sont pas correctement catégorisés, et
des raccourcis font qu’ils ne sont pas immédiatement analysables. Au final, je
souhaitais savoir quelle était la part des impôts, des dépenses de loisirs, de celles qui
sont incompressibles. Egalement, comme j’ai quelques revenus issus de location et de
mes livres et vidéos, je voulais savoir comment ça participait à la balance au fur et à
mesure du temps (ce n’est pas un scoop, mais au cas où vous ne le sauriez pas, non, la
littérature informatique ne fait pas vivre).

La démo

L’article contenant beaucoup de captures d’écran, il était trop gros pour une publication par XML-RPC sur mon WordPress, donc le voici sous forme de PDF à télécharger :

Conclusion

Wrangler est un outil vraiment top que j’ai eu plaisir à découvrir. Il est très ludique et
ergonomique, comme j’espère vous l’avoir montré dans ce blog. Sur un prochain
article, je ferai peut-être voir le pendant de ceci côté puissance, où Wrangler semble
très bon avec la possibilité de paralléliser des analyses (ce qui explique pourquoi, par
exemple, il est nécessaire lors de duplication de valeurs précédentes de spécifier
quelle colonne donne l’ordonnancement des lignes, comme ce qui se fait dans Power
Query, par exemple). Et si vous voulez plus d’exemples, restez à l’écoute de ce site car
l’annonce du bouquin sur l’analyse de données Open Data ne devrait pas tarder…

Posted in Uncategorized | Leave a comment

Evènement Microsoft Extend à Paris, les 11 et 12 mai

Posted on 09/04/2016 by JP Gouigoux

Microsoft ouvre une conférence décrite comme “crowd-conferencing” (c’est-à-dire que c’est le public qui aura une part de vote pour les sessions qui seront présentées). Au menu, Office, Machine Learning, Cortana Analytics Suite, Power BI et SQL Server, et des intervenants qui viennent de Microsoft Corp à Seattle (http://www.interopevents.com/paris2016#paris2016-speakers).

Et c’est ouvert à tous, pas qu’aux MVP !

Posted in Uncategorized | Tagged MVP | Leave a comment

Journée des interfaces naturelles sur le Campus Microsoft

Posted on 19/11/2015 by JP Gouigoux

Pour les veinards qui sont sur Paris, Microsoft organise le 11/12 une journée avec du Kinect, du projet Oxford, du Cortana, de l’IoT, etc.

Au programme, 4 MVPs qui vont vous faire découvrir tout ça ! Et peut-être que Microsoft aura amené un Hololens ? Pretty please Sourire …

Pour s’inscrire, c’est ici : https://msevents.microsoft.com/CUI/EventDetail.aspx?CR_CC=200708369&EventID=1032691529&Culture=fr-FR&community=0

Posted in Uncategorized | Tagged Kinect | Leave a comment