banniere aubay

< Tous les articles

Fév 7, 2023

Les 5 tendances data actionnables en 2023 et 2024

Depuis plusieurs années, voire depuis des décennies, les données sont un actif stratégique pour les entreprises. Elles permettent aux organisations de prendre les meilleures décisions possibles et d’innover en termes d’offres et services et de positionnement business au sein de leur secteur d’activité.

Le contexte international et national particulièrement précaire que nous traversons depuis 3 ans (la pandémie de COVID-19, l’instabilité géopolitique, la crise écologique et énergétique, la récession économique combinée à une importante inflation) ne fait que renforcer l’importance d’un usage des données le plus performant et efficace possible. A cela, s’ajoute la pénurie et la volatilité des talents qui rendent souvent complexe la bonne marche des initiatives Data au sein des entreprises.

Au-delà des effets de mode et des tendances marketing, des enjeux majeurs doivent être adressés par les entreprises de manière concrète dans les années à venir.

Les actions menées permettront aux entreprises de gagner en efficacité et en performance tout en adressant les enjeux majeurs spécifiques à notre époque et notamment le développement durable et la pénurie des talents :

  • Des données + qualitatives grâce à la Data Observability;
  • Des données + accessibles grâce aux principes de Data Democratization;
  • Une organisation + efficace avec l’adoption de l’Analytics Engineering;
  • Des services d’Intelligence Artificielle + industrialisés avec le MLOps;
  • Un usage des données + sobre et responsable grâce aux principes de Green IT for Data.

 

1) Data Observability : Comment assurer une meilleure fiabilité des données

 

La qualité des données est et reste depuis des décennies un enjeu majeur pour les organisations. Ce constat est d’autant plus vrai depuis l’explosion du volume et de la variété des données disponibles au sein des entreprises et de la volonté de les valoriser pour maximiser la création de valeur métier.

Le vieil adage « GIGO » (« garbage in, garbage out ») reste donc toujours d’actualité !

Dans ce contexte, les équipes Data cherchent à mettre en place des solutions pour gérer et améliorer la qualité des données. Principalement tourné vers la surveillance, les solutions « classiques » ne permettent pas aux Data Engineers ou aux Data Managers de mettre en place des actions préventives et donc d’être proactif sur le sujet. Ils sont le plus souvent spectateurs des problèmes rencontrés et consacrent une partie significative de leur temps à mener des actions de remédiations chronophages et bien souvent éphémères.

La Data Observability pour reprendre la main sur la qualité des données

Né il y a des décennies de la théorie du contrôle, l’observabilité (Observability) consiste à utiliser les données de télémétrie disponibles (métriques, journaux et traces) pour permettre aux équipes IT de disposer d’une meilleure visibilité du fonctionnement des systèmes informatiques qu’ils gèrent et ainsi d’identifier les causes profondes des problèmes rencontrés.

Bien plus qu’un effet de mode, l’observabilité est aujourd’hui de plus en plus utilisée pour améliorer la performance des systèmes informatiques distribués toujours plus riches et complexes et cela particulièrement avec l’accélération de l’adoption des services Cloud. L’engouement pour des solutions telles que Datadog ou Dynatrace en est la preuve !

La Data Observability est donc l’observabilité appliquée aux systèmes informatiques spécialisés dans la gestion des données. Au-delà des applications concrètes pour les infrastructures de données, elle permet notamment de réduire le temps d’indisponibilité des données en appliquant les bonnes pratiques DevOps à l’observabilité des pipelines de données.

La Data Observability vient donc motoriser la stratégie de gouvernance des données et cette dernière contribue bien évidemment à définir le cadre de l’observabilité des données en établissant les lignes directrices de la surveillance (quoi et quand) ainsi que les seuils fonctionnels de déclenchement des alertes.

En revanche, les solutions du marché telles que Monte Carlo, Datafold ou encore la startup française Sifflet supportant surtout des outils Data modernes et principalement Cloud, l’adoption de la Data Observability reste encore limitée à des entreprises possédant une « modern data stack ». L’évolution rapide du marché (deux faits marquants en 2022 : levée de fonds série D de 135 M$ par Monte Carlo et acquisition de Databand par IBM) et l’adoption grandissante des services Cloud devraient permettre aux entreprises de profiter pleinement dans les prochaines années des opportunités offertes par la Data Observability.

 

2) Data Democratization : La Data à tous les étages

 

Traditionnellement, les données et les outils d’analyse sont accessibles à un nombre restreint de personnes au sein des organisations, généralement les équipes Data et la direction IT.

La Data Democratization a quant à elle pour objectif de permettre à l’ensemble des collaborateurs de pouvoir travailler au quotidien sereinement avec leurs données. Il s’agit de donner à des profils non technophiles les moyens d’exploiter et analyser les données et ainsi faciliter la prise de décision via une approche Data-Driven.

 

 

Cette démocratisation est un processus continu qui dépasse le cadre des solutions techniques et se structure autour de trois grands principes :

  • Mettre en place une culture d’entreprise adéquate ;
  • Se sentir à l’aise avec le fait de travailler avec des données ;
  • Avoir accès et être formé aux bons outils.

 

Au-delà de la prise de décision, cette approche a pour avantage d’améliorer la communication et la collaboration au sein des équipes. Ces dernières ont ainsi accès de manière transparente aux données avec un niveau de compréhension commun propice à l’innovation.

Ces changements se traduisent notamment par la mise en place d’outils BI modernes (souvent « low-code » ou « no-code ») pour rendre accessible la manipulation et l’analyse des données. Ils facilitent ainsi la mise en place de fonctionnalités de Self-Service BI au niveau des organisations. En opposition avec le développement traditionnel, ces solutions s’appuient sur des interfaces utilisateurs hautement ergonomiques et minimisant le plus possible la part de codage.

Pour motoriser l’ambition de démocratiser l’accès aux données, les éditeurs du marché ont aussi fait évoluer leurs offres et donc leurs solutions pour mieux couvrir les besoins des utilisateurs en termes de fonctionnalités Data ou pour les rendre plus simple d’utilisation (« no-code » ou « SQL-first ») et donc plus accessible par le plus grand nombre.

A titre d’exemple :

  • Initialement positionné sur le marché de la Data Science et du Machine Learning, Dataiku propose aujourd’hui une plateforme analytique complète permettant au plus grand nombre de valoriser les données, d’industrialiser les projets IA pour en faire des services d’entreprises et de simplifier l’accès aux données via des Data Apps ;
  • A la manière de Dataiku, Qlik a étoffé son offre au fil des années pour aller au-delà de la Data Viz et proposer une plateforme complète de valorisation des données ;
  • Depuis quelques années, Databricks développe des facilitateurs technologiques pour permettre au plus grand nombre de valoriser les données de manière simple tout en exploitant la performance du moteur Spark.

Et demain, la Data Democratization atteindra peut-être un autre stade en termes d’expérience utilisateur avec des IA (à la manière de l’agent conversationnel ChatGPT) pour simplifier l’accès à l’information ou produire de manière totalement assistée des requêtes sur les données.

 

3) Analytics Engineering : Un modèle organisationnel pour soutenir une stratégie Data plus productive

 

Depuis quelques années et avec l’accélération de l’innovation technologique par le Cloud, le paysage des outils et solutions Data a énormément évolué pour offrir des fonctionnalités toujours plus performantes, abordables et simples d’utilisation :

  • Les Cloud Data Warehouses (particulièrement Snowflake et BigQuery) ont rendu le stockage et le traitement des données relationnelles performants pour un coût total de possession ultra compétitif ;
  • Les services d’intégration et de traitement de données (par exemple, Fivetran, Airbyte, dbt) permettent de mettre en œuvre la majorité des actions et transformations sur les données de manière assistée ;
  • Les outils BI modernes (par exemple, Looker, Power BI) permettent aux utilisateurs métiers de gagner en autonomie avec les fonctionnalités de Self-service.

 

Par ailleurs, la majorité des équipes Data repose encore aujourd’hui sur une organisation faisant une distinction forte (pour ne pas dire une véritable scission) entre les métiers se chargeant de l’ingénierie de données et ceux valorisant les données :

  • Les Data Engineers sont en charge de la mise à disposition des données. Ils ont pour principale mission de mettre en œuvre des pipelines de données de manière industrielle. Bien qu’ils soient de très bons profils techniques, les Data Engineers manquent souvent de sensibilité en ce que concerne la valorisation des données et de connaissances sur la finalité métier de leurs travaux d’ingénierie de données.
  • Les Data Analysts quant à eux collaborent en proximité avec les métiers pour calculer des indicateurs et produire des rapports et des tableaux de bord avec des outils BI modernes et en utilisant majoritairement le langage SQL. Alors qu’ils sont normalement tournés vers les enjeux métiers, les Data Analysts consacrent une part importante de leur temps à réaliser des tâches connexes sans valeur métier : identifier les bonnes données et les préparer, voire même construire des applications pour répondre à des besoins spécifiques de diffusion ou de partage.

 

Les « lacunes » des Data Engineers et des Data Analysts mentionnées précédemment correspondent au périmètre d’intervention d’un Analytics Engineer.

Le métier d’Analytics Engineer, un nouveau métier Data à la frontière entre un Data Analyst et un Data Engineer

Un nouveau modèle organisationnel reposant sur les principes de l’Analytics Engineering se déploie de plus en plus au sein des entreprises. Il prend le contre-pied des modèles dits « classique » en s’appuyant sur l’innovation technologique du Cloud dans le domaine de la Data afin de simplifier les tâches les plus complexes et chronophages et permettant donc l’introduction naturelle du rôle d’Analytics Engineer.

L’Analytics Engineer se charge de modéliser les données dans une optique de les rendre accessible par les utilisateurs métiers. Un Analytics Engineer transforme et expose les données auprès des utilisateurs et tout cela en maitrisant les tenants et les aboutissants des enjeux et besoins métiers. De cette manière, les métiers gagnent en efficacité et en autonomie afin de répondre aux questions qu’ils se posent.

L’Analytics Engineer étant souvent vu comme un Data Analyst possédant les compétences techniques d’un Data Engineer, la démocratisation technologique des outils d’intégration et de traitement des données est donc un facteur clé de succès à la mise en place d’un modèle Analytics Engineering.

Au-delà de faire gagner en efficacité et en productivité, un modèle orienté Analytics Engineering permet de réduire les difficultés de staffing des équipes Data. En effet, les Data Engineers les plus techniques (par exemple, ceux maitrisant la mise en œuvre de pipelines de données avec Spark) sont encore aujourd’hui des profils très recherchés en volume. En prenant en charge une partie significative des travaux des Data Engineers, les Analytics Engineers peuvent permettre de réduire significativement la dépendance des équipes Data aux profils « rares ».

 

4) MLOps : La clé du succès pour rendre l’IA opérationnelle

 

Malgré l’adoption et le développement rapide des méthodes d’Intelligence Artificielle au sein des organisations, une majorité des modèles mis en œuvre échoue encore à passer en production. Or sans mise en production, aucune valeur ne peut être générée pour les entreprises.

Faire d’un modèle un service d’entreprise opérationnel ne se résume néanmoins pas à mettre en production les composants techniques associés à celui-ci. Le véritable challenge de la mise en production d’un modèle consiste à industrialiser le déploiement et la surveillance (aussi bien technique que fonctionnelle) des modèles afin de garantir leur fiabilité et leur pertinence et cela au fil du temps.

Or, assurer les activités de déploiement et de surveillance nécessite des compétences complémentaires à celles des Data Scientists (plus techniques de manière générale et surtout plus proche de celles des Data Engineers en particulier) et implique des coûts récurrents durant toute la durée du cycle de vie des modèles. Ce qui explique notamment pourquoi l’industrialisation est perçue comme un « mur » par les équipes métiers et les Data Scientists.

Le MLOps pour aider les organisations à franchir le « mur » de l’industrialisation

Le MLOps (pour Machine Learning Operations) désigne l’ensemble des pratiques et des outils permettant de développer, déployer et maintenir une IA de manière à ce qu’elle soit et reste performante et fiable dans le temps. En appliquant les concepts et principes de la méthode DevOps au Machine Learning, le MLOps contribue à aider les organisations à gérer et faire évoluer le cycle de vie des modèles par le biais de processus automatisés et reproductibles. Comme le DevOps, le MLOps repose sur des principes et des bonnes pratiques d’automatisation, de collaboration et d’amélioration continue.

L’adoption du MLOps par les équipes Data, qu’elles soient métiers ou IT, est donc primordiale pour permettre aux organisations de franchir le « mur » de l’industrialisation et rendre l’IA opérationnelle et génératrice de valeurs pour les entreprises.

Bien que l’adoption MLOps s’est fortement accélérée ces dernières années, l’industrialisation reste encore aujourd’hui et pour les années à venir au cœur des préoccupations des entreprises. Les organisations continuent à affiner leurs stratégies et leurs convictions dans le domaine et ont toujours besoin d’étoffer les savoir-faire de leurs équipes Data avec des compétences en ML Engineering.

Les éditeurs, quant à eux, continuent à être très actifs sur le marché avec des levées de fonds encore conséquentes pour les « pure-players » (200 M$ en décembre 2022 pour Dataiku) et des investissements et des partenariats stratégiques pour les spécialistes (partenariat technologique entre Domino Data Lab et Snowflake officialisé en juin 2022) qui souhaitent proposer des plateformes Data toujours plus complètes et alignées avec les attentes des entreprises.

 

5) Green IT for Data : Quand la Data se met aussi au vert

 

Accompagnant la prise de conscience sociétale de notre impact sur l’environnement et accélérée par la crise énergétique, le Green IT est devenu un enjeu majeur pour toutes les entreprises afin de mener une transformation numérique de manière responsable.

Avant toute chose, le Green IT désigne l’ensemble des technologies de l’information et de techniques permettant de réduire les effets de l’activité humaine sur l’environnement et notamment en permettant aux entreprises de limiter leurs empreintes carbones.

Appliqué au domaine de la Data, une démarche Green IT peut prendre différentes formes. Chacune d’entre-elles apporte des gains et implique de changer son approche de l’exploitation des données.

 

Place à la responsabilité et à la sobriété en termes d’usage des données

Depuis plusieurs années et la « mode » des Data Lakes, le stockage coûte que coûte des données est devenu une pratique très courante. Cette forme du « syndrome de l’écureuil » existait déjà à l’époque du Data Mining ou les statisticiens dupliquaient parfois plusieurs fois les entrepôts de données pour être autonome de la DSI dans leurs activités de valorisation des données. Néanmoins, le stockage des données a aujourd’hui pris une forme extrême avec l’avènement du Big Data et son adoption à l’échelle de l’entreprise. Un des effets pervers de l’approche « Data-Driven ».

Aujourd’hui, un bonne pratique « Green » consiste à stocker les données en fonction des usages (et donc réellement nécessaires) et d’éviter de remplir les socles de données pour les remplir (à commencer par les Data Lakes). La démarche « Usage-Driven » permet de changer la donne !

 

Green AI : l’Intelligence Artificielle responsable et frugale

Bien que l’Intelligence Artificielle soit innovante et génératrice de valeur pour les entreprises, la mise en œuvre de certains modèles peut être particulièrement énergivore du fait de la volumétrie des sources de données et de la puissance de calcul requise.

C’est pourquoi les Chief Data Officers et les responsables RSE encouragent vivement les Data Scientists à plus de frugalité dans leurs travaux. Ces derniers explorent donc de nouvelles techniques permettant de concevoir des modèles performants tout en exploitant moins de données et consommant moins d’énergie.

Pour ce faire, plusieurs voies sont aujourd’hui possibles :

  • Transférer les connaissances acquises à partir de la résolution d’un problème donné pour traiter un autre problème avec le « Transfer Learning » ;
  • Améliorer les algorithmes d’apprentissage en apprenant à mieux apprendre avec le « Meta-learning » ;
  • Apprendre plus avec moins de données avec le « N-shot learning ».

Il existe aussi des voies moins techniques mais tout aussi efficaces. La mise en place d’une politique ambitieuse et outillée de partage et de collaboration au sein de la communauté des Data Scientists peut permettre de mieux partager les travaux déjà réalisées au sein de l’entreprise et donc éviter de mettre en œuvre une nouvelle fois un modèle existant et/ou de ne pas s’appuyer sur un modèle très proche d’un nouveau besoin.

 

Une consommation moins énergivore des fonctionnalités Data grâce au « Serverless Computing »

Massivement adopté ces dernières années avec l’avènement du Cloud, le Serverless est une technologie affranchissant les entreprises de la gestion des infrastructures et ne consommant que les ressources strictement nécessaires à son fonctionnement. Le fait de recourir à des fonctions éphémères s’exécutant uniquement à l’usage peut donc permettre de diminuer significativement l’empreinte carbone émise par des applications informatiques de tout type.

La Data faisant maintenant largement partie des domaines d’applications du Serverless, le choix des services Cloud à utiliser pour mettre en œuvre une Data Platform est un donc un levier structurant dans la recherche de sobriété énergétique.

 

Data for Green ou l’impact positif de la Data dans la transition écologique

L’utilisation des données fait partie des initiatives permettant aux entreprises de mener des actions concrètes dans le but de réaliser leur transition écologique.

Une fois exploitées et valorisées avec une démarche RSE, les données disponibles au sein de l’entreprise peuvent permettre de mieux comprendre le fonctionnement de l’entreprise et ses impacts et donc d’identifier et de mettre en place des actions afin de réduire l’impact de leurs activités sur l’environnement. Il peut s’agir de données opérationnelles liées à l’utilisation des transports ou encore l’utilisation de matériaux particuliers dans un processus industriel.

Des solutions clé-en-main commencent à émerger sur le marché. A titre d’exemple, les fournisseurs de services Cloud proposent maintenant des solutions pour aider leurs entreprises à suivre leurs impacts environnementaux en exploitant les données issues de la consommation des ressources informatiques. Par exemple, Microsoft Azure avec Emissions Impact Dashboard (consommation des services Azure et Microsoft 365) ou encore Google Cloud avec Carbon Footprint.

 

Le mot de la fin !

 

Pas de buzzword, ni trending topic,… Les rédacteurs ont fait le choix de vous partager des tendances qui apporteront des réponses aux enjeux majeurs que les organisations rencontrent et cela quelle que soit l’entreprise et son secteur d’activités.

L’offre Data d’Aubay s’inscrit dans une logique de conseil pragmatique et concrète. Notre vision tête haute des enjeux et tendances de la Data combinée à nos expertises nous permettent d’accompagner les entreprises dans leur stratégie Data en proposant des chantiers concrets et surtout actionnables.

 

Partagez cet article
Claudio & Nicolas

Claudio & Nicolas

Consultant Data & Microsoft MVP / Directeur Data & Analytics

< Retour à tous les articles