Reverse ETL : tout savoir

Pendant de nombreuses années, le rôle des Data Engineers était de récupérer des données issues de différentes sources, systèmes de stockage et applications tierces et de les centraliser dans un Data Warehouse, dans le but de pouvoir obtenir une vision complète et organisée des données disponibles. Dans cet objectif, les pipelines ETL (Extract - Transform - Load) ont ainsi été la référence pour amener toutes ces données dans le Data Warehouse, et en garantissant une homogénéité sur les traitements qui sont appliquées.

Mais depuis peu, nous assistons à une nouvelle mouvance qui consiste à faire une partie inverse des pipelines ETL, c'est-à-dire à déverser des données à partir d'un Data Warehouse vers des outils marketing ou commerciaux comme HubSpot par exemple. Cela offre aux équipes métiers une bien meilleure vision des données qu'elles ont à disposition, permettant alors de prendre des décisions plus adaptées et individualisées.

Dans cet article, nous allons présenter le fonctionnement du Reverse ETL, en quoi il est important pour de nombreuses équipes et les différents cas d'usages qui peuvent en découler.

Pipelines de données

Tout d'abord, avant de rentrer dans le détail du Reverse ETL, il convient de bien comprendre à quoi correspondent les pipelines ETL.

Pipeline ETL

Le pipeline ETL délivre un traitement par lot (batch processing) dont les trois étapes d'extraction, de transformation et de chargement vers une base sont effectué séquentiellement.

Extract : identifier et extraire les données depuis une source d'origine définie. Cette source peut se présenter sous la forme d'une base de données transactionnelle, d'une base de données analytique, ou à partir d'un système de fichiers (CSV par exemple). On y retrouve également des applications tierces comme des outils marketing ou des CRM, qui nécessitent des extractions particulières de données qui leur sont propres.
Transform : appliquer des transformations (tels que des groupements, des agrégations ou des mutations) sur les données. En effet, chaque base ou outil stocke les données sous différentes granularités et avec des besoins différents. L'étape de transformation cherche à homogénéiser l'ensemble des données pour garantir que le format final soit conforme à ce que l'on souhaite obtenir pour des utilisations ultérieures optimales.
Load : insérer les données transformées dans un entrepôt cible (Data Warehouse). Une fois les données correctement traitées, elles sont chargées et stockées de manière organisée et sécurisée dans des bases spécialisées. Par la suite, ces données pourront être interrogées par des applications de visualisation de données adaptées.

Les pipelines ETL sont intéressantes dans la mesure où elles permettent aux entreprises d'avoir une vue centralisée de toutes les données à disposition, et de pouvoir donner la possibilités aux équipes métiers (marketing ou commerciales notamment) de prendre des décisions adaptées.

À lire aussi : découvrez notre formation Data Engineer

Certaines équipes utilisent également des pipelines dites ELT afin de profiter de la capacité de calcul qu'offrent les Data Warehouse modernes comme BigQuery ou Snowflake. Cela leur permet notamment de délaisser l'étape de transformation de données sur l'entrepôt cible pour se focaliser sur la partie intégration de données.

Pipeline Reverse ETL

Avec une utilisation croissante du nombre d'outils utilisés en entreprise, il y a de plus en plus besoin d'avoir des données à jour dans les applications, sans pour autant se connecter directement à la multitude de sources de données présentes en entreprise. C'est ainsi que les Reverse ETL sont nées.

Le Reverse ETL consiste à utiliser le Data Warehouse comme source de données : les données agrégées et historisées dans cet entrepôt vont alimenter des applications, des outils ou des CRM pour permettre aux équipes utilisatrices d'avoir un accès direct à ces données.

Source : Pocus

Ainsi, plutôt que d'avoir des applications ou des outils qui disposent chacun d'une vision en silo des données, le Reverse ETL permet ainsi de partager l'information entre les différents outils, sans pour autant créer des connexions directes entre eux.

Toute la puissance du Data Warehouse, comprenant sa grande variété de données et sa vision 360° sur les clients par exemple, est ainsi déversée dans les outils opérationnels, marketing ou commerciaux afin de permettre aux équipes concernées d'avoir des données plus fines directement dans les outils qu'ils utilisent.

En effet, avec l'explosion des plateformes SaaS, une des grandes difficultés pour ces équipes étaient d'obtenir un partage de données entre ces différentes plateformes, sans venir complexifier fortement leur intégration. Le Reverse ETL sert ainsi de passerelle entre ces différentes plateformes, afin de garantir que les données circulent de manière fluide et cohérente.

Cas d'usages du Reverse ETL

En permettant de rediriger une partie des données du Data Warehouse vers d'autres systèmes, le Reverse ETL permet ainsi de définir précisément les données auxquelles les différentes équipes souhaitent avoir accès.

Personnalisation de campagne marketing : un des principaux levier d'action en marketing pour augmenter les taux de conversion est de personnaliser et d'individualiser l'expérience utilisateur, que ce soit sur un site ECommerce ou une plateforme. Avec le Reverse ETL, il est ainsi possible d'obtenir de nombreuses informations situées sur différentes systèmes pour individualiser le parcours utilisateur et augmenter ainsi le taux de conversion.
Segmentation client et vue 360° : le fait de pouvoir récupérer les données d'un seul et même utilisateur ou client depuis plusieurs sources, permet aux équipes commerciales d'avoir une vue détaillée et de prendre des décisions spécifiques. Cela leur permet ainsi d'affiner leur prospection et leur canal de vente grâce à toutes les informations qu'ils ont.
Automatiser efficacement les différents processus : en ayant une vision complète des données à disposition issues de différents systèmes, il peut être beaucoup plus facile d'automatiser des processus au sein d'une entreprise. Par exemple, les Reverse ETL peuvent être utilisées pour automatiser une partie de la comptabilité sur la facturation client, ou encore pour effectuer des vérifications automatisées sur les différents systèmes.

À découvrir : notre formation Data Engineer

Ce sont ainsi principalement les équipes opérationnels, marketing et commerciales qui bénéficient de l'intégration de données par le biais de ces pipelines.

Avantages et inconvénients du Reverse ETL

Le Reverse ETL présente de nombreux avantages, à la fois pour les équipes métiers, mais également les équipes Data chargées de mettre en place et maintenir ces pipelines.

Mise à disposition de données à jour : le principale avantage du Reverse ETL et de pouvoir proposer aux équipes métiers des données qui sont régulièrement mises à jour, car les Data Warehouse sont très souvent une source de vérité dans les entreprises, avec des mises à jour de données fréquentes (une à plusieurs fois par jour).
Évolutivité de l'intégration de données : puisque le Reverse ETL permet justement d'éviter de créer des connexions démultipliées entre les différents outils, il est beaucoup plus facile pour les équipes Data et rajouter, modifier ou supprimer des connexions depuis le Data Warehouse, puisque les outils ne sont pas directement connectés entre-eux, mais par le biais d'un même entrepôt de données.

Il y a tout de même quelques inconvénients à la mise en place de Reverse ETL.

Spécificité de chaque outil : puisque le Reverse ETL a pour objectif de déverser les données du Data Warehouse vers des outils spécifiques, les équipes Data doivent donc souvent utiliser ou créer des intégrations sur-mesure et spécifiques à un outil. Si celui-ci ne dispose pas d'intégration automatique ou d'API permettant de construire cette intégration, il peut être difficile de déverser les données dans ces outils.
Cohérence et fiabilité des données : bien souvent, les outils utilisées permettent eux-aussi de modifier directement les données sans se soucier des autres systèmes. Il est donc important pour les équipes Data de s'assurer de la cohérence des données et de leur fiabilité lorsqu'ils mettent en place ces pipelines.

Outils de Reverse ETL

Il existe plusieurs outils de Reverse ETL sur le marché, qui peuvent être plus ou moins spécifiques en fonction des besoins et du type d'outil que l'on cherche (open source, gratuit ou payant).

Hightouch est une plateforme qui dispose de nombreuses intégrations prêtes pour utilisation, notamment avec des outils marketing et CRM populaires comme HubSpot. Elle est managé dans le Cloud et ne nécessite aucune installation, ce qui permet aux entreprises de se lancer rapidement dans la création de Reverse ETL. Une version gratuite et limitée est disponible, avec une version payante qui démarre à $350 par mois.
Census est une autre plateforme alternative à Hightouch, qui dispose elle aussi de nombreuses intégrations avec des outils populaires, et managée dans le Cloud. Il y a également une version gratuite, légèrement plus complète que celle de Hightouch, et une version payant qui démarre aussi à $350 par mois.
Fivetran, plateforme qui était initialement plutôt axée sur les pipelines ETL, s'est également étoffée pour intégrer du Reverse ETL, et notamment avec des milliers de connecteurs disponibles. Managés dans le Cloud, sa tarification dépend du volume de données transféré et traite, avec là-aussi une version gratuite pour un faible volume de données.

À noter également que des outils gratuits initialement prévus pour les pipelines ETL comme Apache Airflow, Kestra ou encore Mage peuvent tout à fait être utilisés pour du Reverse ETL, car ils se veulent justement suffisamment agnostiques et personnalisables pour permettre aux Data Engineers de les utiliser dans n'importe quelle situation.

Néanmoins, il y a évidemment beaucoup moins de connecteurs prêts à être utilisés, notamment avec les outils marketing. Cela demandera ainsi une charge de travail supplémentaire pour les équipes Data qui devront ainsi développer leurs propres intégrations.

Conclusion

Le Reverse ETL a toute sa place aujourd'hui où les équipes utilisent un grand nombre d'outils et de plateformes SaaS. En permettant de partager les données de manière fluide et cohérente entre toutes ces applications, le Reverse ETL est devenu un incontournable pour toutes les entreprises qui souhaitent se considérer data-driven.

Même s'il n'y a pas encore aujourd'hui d'outil considéré comme référence aujourd'hui sur le marché, les cas d'usage sont tellement variés et impactant pour les entreprises que de nombreuses communautés se forment afin de développer des solutions adaptées et robustes.

Pour un Data Engineer, le Reverse ETL devient donc de plus en plus une compétence à part entière qu'il conviendra de maîtriser pour répondre aux différents besoins des entreprises.

Blog

Webinars

Reverse ETL : tout savoir

Pipelines de données

Pipeline ETL

Pipeline Reverse ETL

Cas d'usages du Reverse ETL

Avantages et inconvénients du Reverse ETL

Outils de Reverse ETL

Conclusion

Articles similaires

Analytics Engineer : tout savoir sur ce métier

Data Lineage : tracer le parcours de vos données

Semantic Layer : faire rejoindre les données aux utilisateurs