Structurer et analyser des comptes bancaires avec Trifacta Wrangler

This article is also published in english on Trifacta’s blog

Explications

Je viens juste de finir l’écriture d’un livre sur l’Open Data, dans lequel je montre
comment chercher la donnée, puis la nettoyer, l’analyser et la mettre en forme. Afin
que le livre ne soit pas trop rébarbatif, ni pour le lecteur ni pour moi-même pour
l’écrire, je me suis fait un plaisir de tester plein d’outils divers et variés. Il reste bien
sûr de l’Excel et du QlikView, mais je suis tombé sur un outil que je ne connaissais
pas avant, et qui est vraiment top pour ce qui est du traitement des données non
structurées.

Il s’agit de Trifacta Wrangler, et je vous assure que c’est très différent de tout ce qu’on
a l’habitude de voir dans les outils de BI. Tout d’abord, l’ergonomie a été poussée
dans ses derniers retranchements. L’outil propose des suggestions sur les données. Je
suis en général réticent à ce genre d’approche, qui vise rarement juste, mais je dois
avouer que j’ai été bluffé par les capacités de Trifacta Wrangler.

Il se trouve que le projet est issu d’un projet de recherche de Stanford University,
mené par les docteurs Joe Hellerstein et Jeffrey Heer avec leur doctorant Sean
Kandel, et précisément avec le but de monter un système de suggestions probant. Au
final, le démonstrateur est extrêmement intuitif et permet d’atteindre des résultats
très rapidement, car il propose, à chaque action, des suggestions qui montrent le
résultat final si on applique cette proposition. Bref, l’utilisateur a un retour visuel
immédiat sur les choix possibles.

Depuis ce démonstrateur, Joe, Jeff et Sean ont lancé la société Trifacta afin de
continuer leur travail sur un outil que n’importe quel utilisateur sera capable
d’utiliser. En plus de ceci, Trifacta Wrangler est pensé dès le début pour distribuer les
calculs sur des machines séparées. On peut donc vraiment dire qu’il associe une
grande simplicité avec une puissance impressionnante.

En plus du livre sur l’Open Data, je me suis retrouvé à utiliser Trifacta Wrangler pour
débrouiller mes comptes bancaires. Il y a quelques semaines, je me suis rendu compte que mes impôts avaient beaucoup augmenté, et je voulais savoir si, sur les
dernières années, mes revenus avaient augmenté plus vite ou moins vite. J’avais une
idée en gros, mais mes fichiers de comptes ne sont pas correctement catégorisés, et
des raccourcis font qu’ils ne sont pas immédiatement analysables. Au final, je
souhaitais savoir quelle était la part des impôts, des dépenses de loisirs, de celles qui
sont incompressibles. Egalement, comme j’ai quelques revenus issus de location et de
mes livres et vidéos, je voulais savoir comment ça participait à la balance au fur et à
mesure du temps (ce n’est pas un scoop, mais au cas où vous ne le sauriez pas, non, la
littérature informatique ne fait pas vivre).

La démo

L’article contenant beaucoup de captures d’écran, il était trop gros pour une publication par XML-RPC sur mon WordPress, donc le voici sous forme de PDF à télécharger :

Article en PDF

Conclusion

Wrangler est un outil vraiment top que j’ai eu plaisir à découvrir. Il est très ludique et
ergonomique, comme j’espère vous l’avoir montré dans ce blog. Sur un prochain
article, je ferai peut-être voir le pendant de ceci côté puissance, où Wrangler semble
très bon avec la possibilité de paralléliser des analyses (ce qui explique pourquoi, par
exemple, il est nécessaire lors de duplication de valeurs précédentes de spécifier
quelle colonne donne l’ordonnancement des lignes, comme ce qui se fait dans Power
Query, par exemple). Et si vous voulez plus d’exemples, restez à l’écoute de ce site car
l’annonce du bouquin sur l’analyse de données Open Data ne devrait pas tarder…

About JP Gouigoux

Jean-Philippe Gouigoux est Architecte Logiciel, MVP Connected Systems Developer. Il intervient régulièrement à l'Université de Bretagne Sud ainsi qu'à l'Agile Tour. Plus de détails sur la page "Curriculum Vitae" de ce blog.
This entry was posted in Uncategorized. Bookmark the permalink.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Captcha Captcha Reload