Articles Data Engineering

Retrouvez tous nos articles Data Engineering qui vous permettront de découvrir des sujets pointus et avant-gardistes dans ce domaine qui évolue si rapidement.

Blog

7 févr. 2024

Data Engineering

Pendant de nombreuses années, le rôle des Data Engineers était de récupérer des données issues de différentes sources, systèmes de stockage et applications tierces et de les centraliser dans un Data Warehouse, dans le but de pouvoir obtenir une vision complète et organisée des données disponibles.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

4 déc. 2023

Data Engineering

Pour de nombreuses entreprises, la mise en place et la maintenant de pipelines de données est une étape cruciale pour avoir à disposition d'une vue d'ensemble nette de toutes les données à disposition. Un des challenges quotidien pour les Data Analysts et Data Engineers consiste à s'assurer que ces pipelines de données puissent répondre aux besoins de toutes les équipes d'une entreprise.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

14 nov. 2023

Data Engineering

Pour améliorer les opérations commerciales et maintenir la compétitivité, il est essentiel de gérer efficacement les données en entreprise. Cependant, la diversité des sources de données, leur complexité croissante et la façon dont elles sont stockées peuvent rapidement devenir un problème important.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

8 nov. 2023

Data Engineering

Les pipelines de données ETL et ELT sont devenus des outils cruciaux pour Data Engineers et les décideurs afin d'intégrer toutes les données dans différents systèmes. Airbyte est l'une des technologies qui a émergé dans ce domaine et qui suscite de l'intérêt à l'heure actuelle.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

23 mai 2023

Data Engineering

Apache Phoenix est une extension open-source de Apache HBase qui fournit une couche de requêtes SQL pour les données stockées dans HBase. Phoenix permet ainsi d'interagir sur les tables HBase à l'aide de requêtes SQL standard, sans avoir à écrire de code spécifique à HBase

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

15 mai 2023

Data Engineering

Apache Avro est un système de sérialisation de données et un format de données compact, rapide et polyvalent. Il a été développé par Apache Software Foundation et est conçu pour faciliter l'échange de données entre les différentes applications. Contrairement à d'autres formats comme CSV ou JSON, une des grandes particularités d'Apache Avro est qu'il utilise un schéma pour définir la structure des données, ce qui permet de sérialiser et de désérialiser les données de manière efficace, tout en garantissant la compatibilité entre les différentes versions des schémas.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

12 mai 2023

Data Engineering

Apache Flink est un système de traitement des données en temps réel et de traitement par lots à grande échelle. Il s'agit d'un projet open source développé par la fondation Apache, conçu pour offrir une haute disponibilité, une faible latence et une grande capacité de traitement des flux de données. Flink fournit un modèle algorithmique unifié qui permet de traiter les données en temps réel et par lots de manière cohérente. Il prend en charge des opérations avancées telles que la transformation, le filtrage, l'agrégation et la jointure de données en continu.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

3 mai 2023

Data Engineering

Snowflake est une plateforme de Data Warehousing qui offre une solution Cloud aux problèmes de gestion, de stockage et d'analyse des données volumineuses et complexes.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

28 avr. 2023

Data Engineering

Un Data Warehouse (ou entrepôt de données en français), est un système informatique qui permet de stocker et d'analyser de grandes quantités de données provenant de différentes sources. Les données sont généralement structurées, c'est-à-dire qu'elles sont organisées selon un schéma prédéfini pour faciliter leur analyse.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

25 avr. 2023

Data Engineering

Apache Parquet est un format de fichier open-source pour le stockage de données volumineuses dans un environnement Big Data. Ce format est très apprécié des Data Engineers, car il a été conçu pour répondre aux besoins de stockage et de traitement de données massives avec une efficacité maximale en termes de performance, de compression et de flexibilité du schéma de données.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

17 avr. 2023

Data Engineering

Apache Cassandra est un système de gestion de base de données distribuées hautement performant, scalable et tolérant aux pannes. Développé initialement par Facebook et open-source depuis 2008, Cassandra est devenu populaire pour son modèle de données flexible, son architecture distribuée et sa capacité à gérer des volumes massifs de données avec une latence faible et constante. Avec ses capacités de distribution et de réplication, Cassandra est utilisé dans diverses applications, notamment pour le stockage de données de série temporelle, la gestion de contenu web, la messagerie et les analyses en temps réel.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

13 avr. 2023

Data Engineering

HDFS (Hadoop Distributed File System) est un système de fichiers distribué open source conçu pour stocker et gérer de gros volumes de données sur des clusters de serveurs. Il fait partie de l'écosystème Hadoop et est devenu en quelques années la référence pour le stockage de données à très grande échelle, notamment pour ses performances et sa tolérance à la panne, mais également pour sa facilité d'utilisation et son intégration dans toute la suite logicielle de l'écosystèeme Hadoop.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

11 avr. 2023

Data Engineering

Apache HBase est une base de données NoSQL distribuée et hautement évolutive, conçue pour stocker de grandes quantités de données. Il est construit sur Apache Hadoop et fonctionne sur le système de fichiers distribué Hadoop (HDFS). Elle est principalement utilisé pour stocker des données semi-structurées et non structurées telles que des données de journal, des données de capteurs, des données de médias sociaux et des données de télémétrie.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

5 avr. 2023

Data Engineering

Apache Hive est une plateforme open source de traitement de données distribuées, qui permet de gérer et d'analyser de gros volumes de données de manière efficace. Découvrez comment utiliser Hive pour vos projets de Big Data et bénéficier d'une solution de traitement de données évolutive et flexible.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

27 janv. 2023

Data Engineering

Hadoop est un framework Java open source développé en 2006 par Doug Cutting et Michael J. Cafarella, et géré par Apache Software Foundation sous licence Apache 2.0. Il s'agit d'un écosystème logiciel qui permet aux entreprises de traiter d’énormes quantités de données en peu de temps. Ceci est accompli en facilitant l’utilisation du traitement informatique parallèle sur une échelle massive.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

15 déc. 2022

Data Engineering

Depuis plusieurs années, MongoDB s'est imposée comme un standard parmi les bases de données NoSQL. Sa capacité à supporter une grande volumétrie de données tout en offrant un maximum de flexibilité sur les schémas de données en font une base de données très appréciée par les développeurs.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

22 avr. 2022

Data Engineering

Google BigQuery est un Data Warehouse en ligne qui permet aux utilisateurs de stocker, analyser et visualiser des données volumineuses. BigQuery offre une interface web pour executer des requêtes SQL sur les données stockées, ainsi qu'une API pour intégrer BigQuery à d'autres applications.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

15 avr. 2022

Data Engineering

Confluent Platform est une plateforme de données spécialisée dans l'ingestion, la distribution et le traitement de données en temps réel. Basé sur la plateforme Apache Kafka et développée par les mêmes créateurs que cette dernière, elle est devenue incontournable pour beaucoup d'équipes et de Data Engineer, car elle vient compléter Apache Kafka avec de nombreuses fonctionnalités.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

18 mars 2022

Data Engineering

Le NoSQL est une famille de bases de données qui ont la particularité de prendre en charge un modèle de données non relationnelles. À l'opposé des bases de données traditionnelles dites SQL, les bases NoSQL ont fait leur apparition avec le Big Data, dès lors qu'il fallait pour stocker, historiser et requêter sur des volumétries très importantes.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

28 févr. 2022

Data Engineering

Scala tire son nom de « scalable language » car il a été pensé pour être utilisé à n'importe quelle échelle : de simples scripts jusqu'à de larges systèmes. Développé initialement en 2004 à l'EPFL, Scala s'intègre complètement avec Java et s'exécute en tant que plateforme Java.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

7 févr. 2022

Data Engineering

Spark Streaming est l'API dédiée au traitement de données en temps réel basé sur Apache Spark. Celui-ci est bien connu pour sa puissance concernant la parallélisation de calculs très volumineux. Outre son interaction facile en Python, il dispose également d'une API haut-niveau avec la définitions d'objets tels que les DataFrames, très puissant pour manipuler des tableaux de données.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

24 janv. 2022

Data Engineering

MapReduce est un patron d'architecture de programmation utilisé pour paralléliser des calculs dans un contexte Big Data. Imaginé et développé par Jeff Dean chez Google, il a été repris dans plusieurs projet, dont le très populaire framework Hadoop qui utilise MapReduce.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

21 janv. 2022

Data Engineering

Apache Spark est un framework Big Data de traitement de données open source à grande échelle. Il est particulièrement adapté pour les très grandes volumétries de données (plusieurs dizaines ou centaines de Go) et fonctionne de manière distribuée, sous forme de clusters. Son utilisation est principalement dédié aux applications du Machine Learning et des pipelines de données ETL.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

14 janv. 2022

Data Engineering

Apache Airflow est une plateforme qui permet d'exécuter, de planifier et de monitorer des flux automatisés (workflows). Avec Airflow, les pipelines de données (processus ETL, pipelines Machine Learning) peuvent donc être automatisés tout en fournissant des outils d'administration. C'est un outil très puissant, presque devenu un standard dans le domaine.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

10 janv. 2022

Data Engineering

Kafka est une plateforme d'agents de messages (brokers) en temps réel. Cette plateforme permet à la fois de diffuser des données à grande échelle (event streaming) et d'effectuer des traitements sur ces données en temps réel (stream processing). Depuis plusieurs années, Kafka s'impose comme la référence pour diffuser et traiter des centaines de Go de données à grande échelle, tout en assurant une haute disponibilité de services.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

13 avr. 2021

Data Engineering

On le présente comme l'un des sujets les plus en vogue pour l'année 2021 : le Data Mesh. Ce nouveau paradigme, bien différent des Data Lakes ou Data Warehouses, nécessite de repenser complètement la manière dont les données sont stockées, requêtées et utilisées. Le Data Mesh vient avant répondre à une problématique bien concrète.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article

Blog

5 oct. 2020

Data Engineering

Tu as envie de te lancer dans le Data Engineering mais tu ne sais pas par où commencer ? Avec toutes les technologies et outils qu'utilisent les Data Engineers au quotidien, il y a de quoi s'y perdre ... Mais pas de panique ! Nous sommes justement là pour t'aider à y voir plus clair.

Maxime Jumelle

Maxime Jumelle

CTO & Co-Founder

Lire l'article