Dans le dernier rapport Magic Quadrant Gartner 2020, consacré aux plateformes Data Science, Dataiku a été nommée leader dans la catégorie des plateformes de Data Science et de Machine Learning.
Par cette nomination, Gartner récompense la capacité d’exécution et la vision globale de Dataiku qui est de réunir experts data et métiers sur une même plateforme collaborative. Dataiku intègre donc, pour la quatrième année consécutive, le rapport Gartner et rejoint pour la première fois le rang des leaders sélectionnés dans le Magic Quadrant.
Cet article s’intéressera particulièrement au monde de l’intelligence artificielle au travers de l’utilisation de Dataiku. Nous explorerons différents cas d’usages menés sur cette plateforme avant de s’intéresser à la participation d’Aubay dans cette aventure AutoML.
1 – L’AutoML, c’est quoi ?
L’«AutoML» a pour principal objectif de réduire les barrières d’accès à l’intelligence artificielle et de mettre l’IA à la portée du plus grand nombre de communautés de développeurs, de chercheurs et d’entreprises » (Fei-Fei Li, Chief Scientist AI/ML (Google Cloud) et Jia Li, responsable R&D du Cloud IA). Parmi les plateformes AutoML on retrouve : Dataiku, Alteryx, DataRobot, c3.ai, KNIME, RapidMiner, Weka, H2O.ai…
L’infographie suivante présente une comparaison détaillée entre quatre plateformes Data Science selon des critères bien choisis.
L’idée commune de toutes ces solutions est donc de permettre aux non-experts de développer et déployer des modèles de Machine Learning, sans avoir à développer au préalable une expertise en Data Science.
Néanmoins certains outils comme Dataiku, permettent également de coder en plusieurs langages et d’utiliser des librairies externes comme celles de Python (Scikit-Learn, Pandas..)
2 – Pourquoi Dataiku ?
Dataiku DSS permet de faire travailler Data Analysts, Data Scientists et Data Ops sur une même plateforme. Pour les Data analysts, elle constitue essentiellement une interface visuelle interactive au sein de laquelle il est possible de confronter des données, modéliser ou encore obtenir des insights sur demande. Pour les Data Scientists, Dataiku DSS permet de préparer et modéliser les données rapidement.
L’interface utilisateur propose alors nativement une interface de monitoring qui permet de suivre et comparer les performances de plusieurs modèles en cours de conception :
Pour les Data Ops, l’avantage de Dataiku DSS réside dans la possibilité de coordonner le développement et les opérations grâce à l’automatisation du workflow.
Au delà de cet aspect collaboratif, Dataiku DSS présente plusieurs autres caractéristiques notables. Ainsi l’utilisateur a accès, entre autres, à plus de 80 processeurs visuels permettant la préparation des données (nettoyage, enrichissement des données…). Il lui sera également possible de créer des traitements plus complexes à travers le développement de plugins en Python, R, etc… pour encapsuler des transformations custom.
Voici une représentation non exhaustive de la liste des processeurs visuels répondant à différentes phases de réalisation d’un projet Auto-ML:
Afin d’effectuer des traitements sur des volumes de données massifs, Dataiku intègre Spark ou des moteurs tels que Hadoop Hive, Impala et Pig.
Bien que présentant un panel de possibilités moins riche par rapport à des produits principalement orientés visualisation de données, DSS offre à l’utilisateur la possibilité de proposer des visualisations de manière intuitive (drag&drop) ou alors de créer ses propres visualisations basées sur le web (d3.js, plot.ly…).
Enfin, une unique interface utilisateur rassemble les modèles de déploiement, du développement au test et de la préproduction à la production.
Le modèle de déploiement type peut être représenté de la manière suivante :
3 – Quel cas d’usages ?
Plus de 300 clients, opérant dans différents domaines (retail, e-commerce, santé, finance, transports, secteur public, production, produits pharmaceutique), utilisent la plateforme Dataiku pour industrialiser leurs initiatives d’IA.
Dans le secteur du transport, BlaBlaCar a utilisé Dataiku dans le but d’anticiper les coûts et revenus de ses campagnes marketing et pour automatiser les requêtes et la génération des rapports quotidiens pour les équipes Marketing.
Les bénéfices de cette stratégie étaient au rendez-vous avec une plus grande fluidité dans les requêtes et dans la génération de rapports pour les métiers. Les campagnes marketing sont plus ciblées et plus réactives, notamment sur les réseaux sociaux comme Facebook où Blablacar est très présent.
Dataiku est également présent dans le secteur du tourisme, à travers le site Voyageprive qui a eu recours à l’utilisation de la plateforme Dataiku en vue d’améliorer l’expérience client, à travers une analyse approfondie des données massives des utilisateurs permettant de comprendre leurs besoins et ainsi proposer aux clients des recommandations propices et personnalisées. Ceci a eu un impact positif sur le business, avec une amélioration de la satisfaction client, et une augmentation significative de la valeur globale de la transaction comme le montre l’infographie suivante.
A travers ces différents cas d’usages, on constate que Dataiku permet à ses clients dans divers secteurs de rendre leur IA plus opérationnelle, de l’acquisition des données, jusqu’au déploiement des modèles prédictifs, de manière rapide et flexible, tout en impactant positivement le business.
4 – Aubay et Dataiku
Aubay a établi depuis quelques mois un partenariat technique avec Dataiku afin de proposer aux clients un meilleur accompagnement dans l’utilisation de la plateforme.
Aujourd’hui, Aubay compte dans ses rangs des consultants, Data Scientist et Data Engineer, en majorité certifiés Dataiku. Ces consultants sont impliqués au sein de plusieurs projets clients, notamment dans le domaine bancaire.
Des interventions sur une partie administration de la plateforme :
- Accompagnement du client dans l’installation de la solution/upgrade/migration des données.
- Gestion des comptes utilisateurs (créations de compte, permissions etc.)
- Monitoring de la plateforme (gestion des ressources pour la bonne exécution des traitements, gestion aussi des données hdfs avec par exemple des purges de logs quotidiens pour libérer de la place, tests de charge).
- Gestion et résolution d’incidents sur la plateforme
Mais aussi aux côtés du métier pour:
- L’optimisations des traitements (sur Hive et Spark principalement)
- Le développement de nouvelles fonctionnalités sur Dataiku adapté aux besoins du métier
- Donner des conseils sur les bonnes pratiques de développement sur Dataiku que ce soit en atelier ou alors via des “wiki” de Dataiku.
5 – Les évolutions de Dataiku
Dataiku connaît une constante évolution de ses fonctionnalités pour proposer à ses clients une meilleure performance.
Dans sa version DSS 6, Dataiku supporte Kubernetes, permettant de manager les clusters kubernetes dans AWS, Azure, ou GCP ..
Dans sa version la plus récente DSS 7.0 (Mars 2020): Dataiku offre la possibilité d’effectuer une analyse exploratoire des données de façon intéractive (EDA: Exploratory Data Analysis) via l’onglet Statistics du Dataset. Dataiku a aussi connu une amélioration de l’utilisation du Git dans les projets…
En Décembre 2019, Dataiku a annoncé que CapitalG, le fonds d’investissement de Google, entrait dans son capital. Cette information n’est qu’une preuve supplémentaire de la performance de Dataiku laissant penser à un avenir brillant de cette plateforme.
6 – Conclusion
Ainsi, Dataiku peut être présentée comme une plateforme AutoML complète dans la mesure où elle permet de couvrir chaque étape du workflow d’un projet data. Elle se démarque néanmoins des autres par son niveau d’accessibilité : l’expérience Dataiku DSS est optimisée pour chaque utilisateur intervenant sur un projet data quel que soit son niveau de qualification technique. Il est néanmoins possible d’envisager certaines améliorations qui permettraient de concurrencer les solutions les plus complètes en termes de dataviz ou encore de mieux supporter le streaming. Maintenant, il nous est possible de s’interroger sur l’avenir des outils AutoML. Représentent-ils alternatives crédibles aux plateformes dédiées (c3AI, Palantir,ComScor) ?
Sources :