Par Maxime Jumelle
CTO & Co-Founder
Publié le 13 avr. 2021
Catégorie Data Engineering
On le présente comme l'un des sujets les plus en vogue pour l'année 2021 : le Data Mesh. Ce nouveau paradigme, bien différent des Data Lakes ou Data Warehouses, nécessite de repenser complètement la manière dont les données sont stockées, requêtées et utilisées. Le Data Mesh vient avant tout répondre à une problématique bien concrète.
Pour bien comprendre en quoi le Data Mesh est si avant-gardiste, prenons quelques minutes pour bien se représenter le cas du Data Warehouse.
Le schéma suivant est sûrement l'un des plus génériques (et aussi des plus efficaces) pour retranscrire les archictures Data unifiées.
Source : a16z
Nous pouvons voir qu'en termes de stockage de données, les deux pièces maîtresses sont le Data Lake et le Data Warehouse. Les technologies sont assez différentes.
Le point particulièrement intéressant ici est que, contraitement au Data Lake, le Data Warehouse s'étale aussi bien sur le stockage que sur l'historisation. Et c'est justement là un des points divergents avec le Data Lake.
Le Data Warehouse a une utilité beaucoup plus directe pour les métiers, car c'est ce système qui va permettre de faire le lien entre les données brutes, pleines d'informations mais disponibles en trop grande quantité, et les acteurs opérationnels de l'entreprise qui ont des besoins précis et spécifiques sur ces données, mais qui n'ont pas la capacité d'accéder à des outils dits « bas niveau » (plus difficiles à appréhender).
Afin d'être efficace, ce système doit être centralisé pour pouvoir interagir avec les applications, scripts et utilisateurs de l'infrastructure. Cette centralisation permet d'avoir un contrôle optimal des ressources et offre une séparation logique entre les données brutes du Data Lake et les métiers opérationnels.
À lire aussi : découvrez notre formation Data Engineer
Mais cette centralisation apporte également son lot d'inconvénients.
C'est ainsi que, depuis peu, nous assistons à l'émergence d'une nouvelle façon d'architecturer le stockage et l'historisation des données : c'est le Data Mesh.
Le Data Mesh a beaucoup de similarités avec le Data Warehouse dans l'objectif d'offrir de l'information la plus pertinent et la plus fraîche possible. La principale différence, c'est comment cette exposition va être effectuée.
Tout comme dans une entreprise, nous avons des départements ou équipes. Chaque équipe est lié à un sujet spécifique : le marketing, l'audit, le contrôle interne, la comptabilité, etc. Toutes les équipes n'ont pas les mêmes besoins : les équipes marketing auront des besoins sur des données utilisateurs, alors que les équipes d'audit souhaiteraient avec des informations de journaux (logs, connexions, traçabilité).
L'objectif du paradigme Data Mesh est d'exposer des données directement aux services concernés, de manière compartimenté et plus centralisé en un seul point comme c'est le cas avec les Data Warehouses.
Le Data Mesh encourage la représentation par domaines, au même titre que les unités organisationnelles dans les entreprises. Ainsi, plutôt que d'utiliser un Data Warehouse pour former un tout, chaque domaine est orienté et dispose de son propre contexte.
Prenons un cas classique avec un Data Lake et un Data Warehouse.
Le parcours de la donnée est linéaire sous cette configuration.
Cette configuration présente bien sûr de nombreux avantages. En revanche, elle présente également ses limites par les arguments que nous avions évoqués plus haut.
Sous une archictecture Data Mesh, ce n'est pas cette représentation linéaire qui guide les données mais une représentation par domaine.
Dans cet exemple, nous disposons de deux domaines dans un Data Mesh.
Cette représentation par domaines permet de cloisonner les outils, processus et systèmes sans pour autant les isoler : tous les domaines ont accès aux mêmes bases de données NoSQL et systèmes de stockage de fichiers plats. Néanmoins, chaque domaine va construire une hiérarchie en fonction de ses besoins.
Si l'on compare l'approche traditionnelle avec Data Lake et Data Warehouse, il y a plusieurs points différenciants.
Avec les Data Mesh, on ne décompose plus les parties par des technologies (base de données, système spécifique) mais par des domaines adaptés à chaque métier.
À lire aussi : découvrez notre formation Data Engineer
Pour approfondir ce sujet, je vous conseille cet article détaillé qui définit un très bon état de l'art sur les réflexions Data Mesh. Vous pourrez également voir l'interview de Zalando qui a construit une architecture Data Mesh pour des besoins opérationnels.
Ce qu'il faut bien retenir, c'est qu'aujourd'hui, le Data Mesh présente des alternatives à la centralisation, qui reste la référence. Pour autant, ce modèle est encore sujet à des discussions, des évolutions et des améliorations. Il ne s'agit donc pas de tout changer du jour au lendemain, mais l'objectif est surtout de bien comprendre ce qu'apporte la décentralisation et surtout pourquoi elle a un intérêt. Pourquoi pas, dans un futur pas si lointain, voir émerger des architectures hybrides, à la limite entre la centralisation et les microservices engendrés par la décentralisation ?
Vous souhaitez vous former au Data Engineering ?
Articles similaires
7 févr. 2024
Pendant de nombreuses années, le rôle des Data Engineers était de récupérer des données issues de différentes sources, systèmes de stockage et applications tierces et de les centraliser dans un Data Warehouse, dans le but de pouvoir obtenir une vision complète et organisée des données disponibles.
Maxime Jumelle
CTO & Co-Founder
Lire l'article
4 déc. 2023
Pour de nombreuses entreprises, la mise en place et la maintenant de pipelines de données est une étape cruciale pour avoir à disposition d'une vue d'ensemble nette de toutes les données à disposition. Un des challenges quotidien pour les Data Analysts et Data Engineers consiste à s'assurer que ces pipelines de données puissent répondre aux besoins de toutes les équipes d'une entreprise.
Maxime Jumelle
CTO & Co-Founder
Lire l'article
14 nov. 2023
Pour améliorer les opérations commerciales et maintenir la compétitivité, il est essentiel de gérer efficacement les données en entreprise. Cependant, la diversité des sources de données, leur complexité croissante et la façon dont elles sont stockées peuvent rapidement devenir un problème important.
Maxime Jumelle
CTO & Co-Founder
Lire l'article
60 rue François 1er
75008 Paris
Blent est une plateforme 100% en ligne pour se former aux métiers Tech & Data.
Organisme de formation n°11755985075.
Data Engineering
IA Générative
MLOps
Cloud & DevOps
À propos
Gestion des cookies
© 2025 Blent.ai | Tous droits réservés