banniere aubay

< Tous les articles

Oct 27, 2023

A la découverte de l’offre Talend

Créé en 2006 en France en proposant pour la 1ère fois une solution ETL Open Source, Talend est aujourd’hui un éditeur majeur des solutions d’intégration des données permettant aux entreprises de devenir « Data Driven » en exploitant au mieux leur patrimoine de données.

Avec l’avènement du Cloud et l’explosion des besoins en termes d’intégration de données, Talend a su diversifier son offre et propose depuis plusieurs années une palette plus complète d’outils couvrant l’ensemble des besoins courants.

Fort de son succès et de la qualité de ses produits, le cabinet de conseil Gartner positionne Talend parmi les leaders de son « Magic Quadrant for Data Integration Tools » et cela depuis plusieurs années.

 

 

Talend Open Studio (TOS)

 

Talend Open Studio est la version gratuite et open source de Talend. Utilisée principalement par les académiques ou de petites entreprises, cette édition est idéale pour prendre en main le logiciel et développer des flux simples d’intégration de données.

TOS donne uniquement accès au studio de développement. Grâce à de nombreux connecteurs, TOS permet d’implémenter de nombreux cas d’usages. Par exemple, alimenter un entrepôt de données, répliquer une base de données ou encore appeler des services Web.

Gratuite, cette édition reste néanmoins limitée en termes de fonctionnalités. Comme indiqué précédemment, TOS n’étant pas orientée entreprises, les fonctionnalités d’industrialisation et de collaboration sont absentes de cette édition.

 

Talend Integration Server (TIS)

 

Talend Integration Server (TIS) est l’édition payante de TOS reprenant toutes ses fonctionnalités tout en proposant de nombreuses fonctionnalités avancées.

En plus du studio de développement la licence s’accompagne de la Talend Administrator Console (ou TAC) : une application Web qui centralise la gestion et l’administration du studio. La TAC propose d’administrer les rôles utilisateurs et leurs droits d’accès aux projets. Elle permet également la planification et le monitoring des ressources.

Le travail collaboratif est une fonctionnalité majeure de TIS. Le studio est en effet connecté à Git et les développeurs peuvent versionner leurs jobs, créer des branches de features, merger leurs développements, …

Cette édition facilite également le développement des jobs en permettant aux développeurs de factoriser leur code en créant des « joblets ». Un joblet est un composant spécifique qui remplace tout un groupe de composants d’un job. Les joblets permettent une meilleure réutilisabilité du code et facilitent la lecture des jobs les plus complexes.

Très populaire depuis le milieu des années 2000, la solution TIS tend à disparaitre pour laisser peu à peu sa place à une version plus moderne et tournée vers le Cloud : Talend Cloud.

 

Talend ESB

 

Talend ESB est une plateforme pour la conception d’architectures orientées services. Cet outil permet d’assurer la connexion, la médiation et la distribution de données en temps réel à travers des services Web.
Le module ESB joue un rôle de médiateur et de traducteur entre les applications qui ne savent d’habitude pas communiquer entre elles.

Talend ESB embarque une grande variété de composants dédiés à la mise à disposition de services (SOAP, REST, WSDL, HTTPS…) en plus des composants traditionnels de la version Data Integration.

Ce produit accélère l’intégration de données et d’applications de différentes sources.

 

Talend Cloud

 

Avec la démocratisation du Cloud, Talend propose désormais des solutions de type « iPaaS » (Integration Platform as a Service) permettant d’exploiter au mieux les avantages du Cloud.

L’architecture fonctionnelle comporte une infrastructure locale et Cloud dont voici un aperçu des principales applications disponibles :

 

1. La console d’administration appelée Talend Management Console (TMC) proposant notamment les fonctionnalités suivantes :

    • Gestion des rôles, utilisateurs et groupes
    • Gestion des projets et de la connexion aux dépôts git
    • Vérification des licences disponibles
    • Déploiement, configuration et gestion des moteurs distants (Remote Engine)
    • Gestion, planification et surveillance de l’exécution des tâches
    • Mise en place des promotions entre les environnements (ex : Développement, Recette, Production)

 

2. Data Preparation: Il s’agit d’une application en mode « No code » permettant de corriger les données facilement et rapidement. Utilisable à la fois par les Data Engineers mais également par des profils non techniques grâce à une interface Web intuitive, ce module permet à l’utilisateur de définir un ensemble de règles de nettoyage qui permettront de standardiser et corriger les données.
Une fois la préparation terminée, il est possible de l’importer dans le studio Talend afin d’industrialiser les traitements.

 

Figure 2 : Exemple d’une préparation de données réalisée via l’interface Web

 

 

3. Data Stewardship: Talend Data Stewardship est l’outil permettant de réaliser la gouvernance des données. Grâce à une interface simple de prise en main, ce module permet de faire interagir les Data Engineers et les profils orientés métier en les impliquant directement dans le processus de curation de données. L’objectif est de créer des campagnes de nettoyage de données dont la correction nécessite une intervention humaine.

Par exemple, pour supprimer les contacts en doublon dans un CRM, il est parfois nécessaire de recourir à une intervention humaine afin d’identifier si deux contacts correspondent ou non à la même personne. Une fois les données consolidées, les données seront alors considérées comme des « golden record ».

 

4. API Services: Ce module permet de concevoir, implémenter et tester des API en toute simplicité. Il est possible de simuler automatiquement l’API en utilisant des mocks et générer instantanément un aperçu en temps réel de la documentation de l’API. Un portail d’API permet de centraliser la documentation de toutes les API.

La mise en place d’une API implique la collaboration de plusieurs outils Talend : Une API est créée sur Talend API Design, implémentée via le Studio Talend, testée sur Talend API Tester et enfin exécutée via la TMC.

 

Figure 3 : Les différentes étapes du développement d’une API via Talend Cloud API Services

 

D’autres outils sont disponibles via la TMC comme le Pipeline Designer qui permet de créer des pipelines d’intégration de données facilement en mode « No code » ou encore le Data Inventory qui permet de maintenir un inventaire des jeux de données générés par Talend Cloud en associant un score de qualité aux données et en les rendant accessibles aux autres utilisateurs.

Enfin, à noter que Talend Cloud dispose de sa propre API. Cette dernière propose de nombreux endpoints permettant d’industrialiser et de monitorer les différents flux d’intégration de données.

Cette API offre de nombreuses possibilités dont les suivantes :

  • Créer des Remote Engine et les lier à la TMC
  • Effectuer la promotion de jobs entre différents environnements
  • Déclencher l’exécution de jobs
  • Collecter des informations d’audit de la plateforme Talend

 

Figure 4 : Vue d’ensemble de l’architecture Talend Cloud

 

Stitch

 

Stitch est un ETL disponible en mode SaaS (Software as a Service) permettant de développer facilement des flux d’intégration de données sécurisés en mode « No code ». Acheté par Talend en 2018, cet outil est utilisable par des profils non techniques et assure le transfert sécurisé d’une source de données vers une destination.

Stitch dispose d’une centaine de connecteurs et est compatible avec de nombreuses sources de données parmi lesquelles :

  • Des bases de données telles que MySQL ou MongoDB
  • Des outils SaaS comme Zendesk ou Salesforce
  • Les technologies Cloud comme Snowflake, Amazon Redshift, Google BigQuery ou encore Azure Synapse
  • Toutes les sources de données au format JSON

Une fois la source et la destination configurées, il suffit ensuite de planifier la fréquence de chargement des données. Un vrai jeu d’enfant !

 

Figure 5 : Stitch au cœur de l’intégration de données

Comme mentionné précédemment, Stitch est donc la solution idéale pour intégrer rapidement et en tout simplicité des données au sein d’entrepôt de données. Cependant, Stitch n’est pas approprié à des transformations de données complexes. Pour répondre à ce cas d’usage, Talend reste la solution à privilégier.

 

Rachat de Talend par Qlik

 

Le 16 mai 2023, Qlik, le géant américain spécialiste en Data Visualization, a finalisé son acquisition de Talend. Derrière cette acquisition colossale se cache Thoma Bravo, le fonds d’investissements déjà propriétaire de Qlik depuis 2016 et spécialisé dans le rachat d’entreprises de la tech.

L’acquisition de Talend par Qlik va permettre de renforcer le positionnent de Qlik, notamment sur le marché Européen, afin de venir concurrencer les principales solutions de visualisation de données du marché (Power BI et Tableau pour ne citer que les solutions majeures). La complémentarité des deux solutions doit permettre à Qlik de proposer à ses clients une offre élargie d’outils et de solutions Data.

L’offre Talend étant très diversifiée (de l’édition Open Source à Stitch en passant par Talend cloud), les différentes éditions disponibles permettent de répondre à tous les besoins en intégration de données. Fort de son rachat par Qlik en 2023, Talend renforce encore plus son positionnement de leader sur le marché mondial de l’intégration de données.

Néanmoins, il existe aujourd’hui de sérieux concurrents à Talend et à son offre Cloud. Parmi les éditeurs historiques du marché de l’intégration de données, Informatica est un concurrent majeur avec sa plateforme 100% SaaS appelée Informatica Intelligent Cloud Services (IICS). Par ailleurs, ces dernières années, avec l’avènement du Cloud, de nouveaux acteurs sont arrivés sur le marché et concurrencent activement Talend. Par exemple, les deux éditeurs à succès, Airbyte et dbt Labs (ce dernier étant positionné uniquement sur le volet Transformation de données), proposent des solutions sur le même modèle historique que Talend, c’est-à-dire une solution d’entrée de gamme open source et gratuite et une version payante en mode SaaS.

 

 

Partagez cet article
Thomas

Thomas

Lead Data Integration

< Retour à tous les articles