Par Maxime Jumelle
CTO & Co-Founder
Publié le 9 déc. 2020
Catégorie MLOps
L'AutoML est une pratique courante dans les projets Data Scientist qui consiste à automatiser le création des modèles de Machine Learning. Cela va permettre de gagner du temps puisque cette pratique va tester à la fois plusieurs méthodes de transformations des données, mais aussi plusieurs modèles de Machine Learning pour ensuite les comparer et conserver le plus performant.
En voyant ceci, beaucoup sont tentés de dire que cette pratique va remplacer à terme les Data Scientists. Mais est-ce réellement le cas ? Peut-on faire confiance à l'AutoML au point de ne plus toucher au pipeline ML ? Et plus précisément, c'est quoi le pipeline ML ?
Pour bien comprendre comment fonctionne l'AutoML et pourquoi il peut se révéler utile, revenons en détails sur les étapes qui constituent un projet de Machine Learning.
Avant même de démarrer le développement, il faut tout d'abord déterminer l'expression du besoin, qu'est-ce que l'on souhaite résoudre/optimiser avec le modèle prédictif. Une fois établi, vient ensuite l'identification des sources de données, qui consiste à se poser la questions suivante :
Quelles sont les sources de données qui vont me permettre de résoudre mon problème en les utilisant pour un algorithme prédictif ?
Ces données encapsulent la réalisation d'un phénomène à un instant donné (scoring, tarification, comportement) : si c'est ce dernier que l'on souhaite reproduire, les données permettront de le modéliser.
À lire aussi : découvrez notre formation MLOps
Enfin, c'est le pipeline ML qui est véritablement le cœur du sujet pour le Data Scientist. Ce pipeline, dont l'objectif est d'aboutir à un modèle de Machine Learning optimal, est constitué de plusieurs étapes.
Pour terminer, le déploiement est la dernière étape pour exposer le modèle sur un serveur afin qu'il puisse être accessible et consommé par des utilisateurs (authentifiés ou non) ou des services.
Faisons maintenant un focus de la deuxième étape à la dernière. Toutes ces étapes doivent être exécutées séquentiellement, la sortie d'une étape est l'entrée de la suivante. Ainsi, l'on souhaite effectuer une modification sur une étape, il faut au moins relance toutes celles qui en découlent : c'est une tâche redondante qui va justement être automatisée dans le cas où l'on souhaite tester plusieurs modèles et plusieurs méthodes d'encodage (feature engineering).
Il existe une multitude de librairies permettant de faire de l'AutoML. Les plus connues, en Python, supportent les frameworks connus comme scikit-learn
, tensorflow
ou pytorch
.
scikit-learn
pour automatiser l'entraînement des modèles natifs à cette dernière. En combinant avec les pipelines de scikit-learn, il est possible d'automatiser le pipeline ML dans son intégralité avec peu de modifications du code source.keras
avec les réseaux de neurones.Bien entendu, l'AutoML n'est pas une solution miracle qui va remplacer les Data Scientists. Au contraire, il va être un puissant allié pour se concentrer à l'essentiel. Profitant de l'automatisation du pipeline ML, les avantages sont multiples.
À l'inverse, l'AutoML va aussi présenter quelques inconvénients.
À lire aussi : découvrez notre formation MLOps
Bien que l'AutoML peut être utile dans certains cas, cela ne remplacera pas le Data Scientist : bien souvent, la créativité humaine est meilleure pour déterminer les meilleures méthodes d'encodage et l'AutoML ne remplacera pas une connaissance fine et précise d'un modèle puissant.
En somme, il est préférable de garder l'AutoML sur des sujets qui ne permettent pas d'investir beaucoup de temps dans la phase de construction du modèle : dans ce cadre précis, il s'agit d'une pratique parfaitement adapté.
Vous souhaitez vous former au MLOps ?
Articles similaires
18 janv. 2022
MLflow est une plateforme open source qui permet de **gérer le cycle de vie des modèles de Machine Learning. En particulier, grâce à MLflow, les modèles qui ont été entraînés à une date spécifique ainsi que les hyper-paramètres associés pourront être stockés, monitorés et réutilisés de manière efficace.
Maxime Jumelle
CTO & Co-Founder
Lire l'article
6 oct. 2021
Tu as probablement déjà entendu parler de Kubernetes : c'est un outil extrêmement populaire dans le Cloud et qui est devenu, en quelques années, la référence en terme de déploiement d'applications dans le Cloud. Mais pourquoi (et surtout comment) Kubernetes est devenu la solution incontournable ? Et surtout, pour un Data Scientist, quel est le rapport avec Kubernetes et le Machine Learning ?
Maxime Jumelle
CTO & Co-Founder
Lire l'article
11 févr. 2021
C'est l'un des profils les plus demandés par les entreprises depuis quelques années. Le Machine Learning Engineer s'est imposé comme le profil idéal pour industrialiser et mettre en production des projets Data Science. En plus de ses compétences déjà solides en Machine Learning, il utilise les outils et services du Cloud pour déployer des modèles et des API sur des infrastructures complexes.
Maxime Jumelle
CTO & Co-Founder
Lire l'article
60 rue François 1er
75008 Paris
Blent est une plateforme 100% en ligne pour se former aux métiers Tech & Data.
Organisme de formation n°11755985075.
Data Engineering
IA Générative
MLOps
Cloud & DevOps
À propos
Gestion des cookies
© 2024 Blent.ai | Tous droits réservés