← Retourner à la liste des articles
Image blog
Auteur

Par Maxime Jumelle

CTO & Co-Founder

Publié le 22 oct. 2020

Catégorie Machine Learning

Les différents profils Data Scientists

Communément, lorsque l'on fait référence à un Data Scientist, on imagine que ses journées sont remplies de création de modèles et de formules mathématiques. La réalité est en revanche plus nuancée, car il existe différents profils de Data Scientists, tout comme il existe différents profils de développeurs ou de consultants.

Mais alors, quels sont les différents profils Data Scientists que l'on rencontre ? Après de nombreux échanges avec des Data Scientist dans diverses entreprises, nous avons vu établir plusieurs profils qui apparaissaient fréquemment.

01 - Le Data Scientist opérationnel avec une bonne connaissance métier

Pour prendre les bonnes décisions et définir des hypothèses justes, le Data Scientist opérationnel, lorsqu'il travaille dans une entreprise, doit avoir une bonne connaissance métier. Lorsqu'il faut, par exemple, savoir quelles transformations appliquer sur des jeux de données, ou choisir quelles sont les variables explicatives qui peuvent apporter de l'information sur un phénomène que l'on étudie, difficile d'avoir des réponses lorsque les données ne sont pas compréhensibles sans connaissance métier.

Que ce soit dans les domaines de la finance/assurance, du marketing, de l'industrie ou encore de la médecine, un Data Scientist ne doit pas uniquement construire des algorithmes. Il doit aussi apporter des réponses et justifier de ses choix qui permettent de répondre à une problématique métier.

Si tu as une appétence pour un domaine particulier (finance/assurance, marketing, médecine, ...) et que tu souhaites y rejoindre en tant que Data Scientist, tu es le candidat idéal pour ce profil.

02 - Le Data Scientist R&D (Google, Criteo, Netflix)

Dans certains cas, lorsque la problématique est très spécifique, les algorithmes classiques utilisés par les Data Scientists présentent des limites. Le Data Scientist n'a d'autre choix que de se tourner vers l'état de l'art en fouillant les papiers de recherches.


À lire aussi : découvrez notre formation MLOps


Le Data Scientist R&D intervient sur des domaines très pointus et souvent dans des entreprises déjà très spécialisées. De formation souvent théorique, le Data Scientist R&D utilise des outils statistiques combinés à des algorithmes à la pointe de la recherche pour répondre à des problématiques pour lesquelles les algorithmes classiques ne fonctionnent plus.

Par exemple, le rôle du Data Scientist R&D, c'est de mettre en place de nouvelles solutions techniques pour améliorer des modèles qui ont un rôle cruciaux dans l'entreprise (chez Netflix, il peut passer des semaines à essayer d'améliorer les performances de l'algorithme de recommandation de seulement 0,1%).

Un des plus grands alliés du Data Scientist R&D est la bibliothèque de recherche en ligne Arxiv qui recense des dizaines de milliers d'articles de recherche (et quelque fois, en bonus, un lien vers un dépôt pour obtenir le code associé), où des chercheurs du monde entier publient leurs travaux, leurs expériences et leurs résultats sans contrepartie.

Si tu aimes comprendre la théorie qui se cache derrière les algorithmes et que tu souhaites implémenter des solutions à l'état de l'art, le Data Scientist R&D te sera parfaitement adapté.

03 - Le Data Scientist « touche-à-tout » (startups)

Ce profil se rencontre plus souvent dans les startups de petite taille, car elles nécessitent de véritables couteaux-suisse de la Data pour pouvoir mettre en place des solutions basé sur du Machine Learning. Contrairement aux grandes entreprises, dans les startups, les équipes Data sont très réduites, où quelques fois il n'y a que deux ou trois personnes dans l'équipe !

Et c'est là que le Data Scientist doit être prêt à relever les défis, puisqu'il va devoir apprendre de nouvelles compétences pour pouvoir mettre en place ses algorithmes dans l'entreprise. En plus de ses activités principales de Machine Learning, il va aussi intervenir sur la partie DevOps, puisqu'il est le seul à avoir la connaissance du cadre des projets Data Science, mais également sur des parties de Backend (bases de données) et de Frontend (Data Visualization).

Ce profil est particulièrement adapté pour ceux qui aiment apprendre et qui veulent monter rapidement en compétence, car il n'y a rien de plus formateur que de pratiquer directement des connaissances apprises tout récemment. Les startups sont donc propices pour faire émerger des talents chez les Data Scientists.

Si tu aimes apprendre et que tu veut rapidement monter en compétences sur plein de sujets, alors l'aspect « touche-à-tout » t'ouvriras de grandes portes et l'environnement startup est certainement le plus adapté pour toi.

04 - Le NLP Scientist (Amazon, Airbnb)

Le NLP (pour Natural Language Processing), c'est la manipulation, la compréhension et la génération du langage naturel humain par des algorithmes. Il s'agit d'un domaine en plein essor depuis plusieurs années, puisque non seulement, la quantité de données textuelles à disposition a explosé, mais également parce que les algorithmes de NLP, qui sont souvent des réseaux de neurones, atteignent des performances exceptionnelles.

🙋 Pourquoi un Data Scientist peut se spécialiser en NLP ?

Ce qu'il faut bien comprendre, c'est que le potentiel du NLP est sans limite.

  • La compréhension du langage humain facilite énormément les interactions avec les algorithmes. Par exemple, plutôt que de faire une recherche dans une base de données avec un langage de requête, nous pourrions simplement détailler, en français, ce que l'on souhaite obtenir.
  • Le Data Mining appliqué au NLP permettrait de rechercher efficacement des informations très précises, dissimulées dans des millions (voir milliards) de phrases. Cela représente un gain de temps monumental dans certains domaines.

Sauf que ... mettre en place des algorithmes de NLP n'est pas de tout repos ! Il y a beaucoup de concepts différents, de notions parfois théoriques à assimiler et surtout une aisance avec le code. Un NLP Scientist, c'est donc un Data Scientist spécialisé dans le NLP, car cette discipline est tellement vaste, qu'une spécialisation est nécessaire.

Si tu as une appétence pour le traitement du texte et que tu te passionnes pour construire des algorithmes comprenant le langage humain, le NLP Scientist est le profil qui te correspond.

05 - Le ML Engineer (Facebook, Apple)

Le ML Engineer (pour Machine Learning Engineer), c'est déjà un tout autre profil. Tout d'abord, un ML Engineer, c'est initialement un Data Scientist qui sait répondre aux problématiques classiques fréquemment rencontrées en Machine Learning (scoring, classification, clustering, ...).


À lire aussi : découvrez notre formation MLOps


Pour expliquer l'émergence de ce profil, prenons une statistique très évocatrice : 75% des entreprises ne dépasseront pas la phase de prototypage des projets d'IA. Cela signifie que seules 25% des entreprises mettent en production leurs algorithmes.

🙋 Comment expliquer ce chiffre aussi bas ?

La raison est simple (ou plutôt directe) : mettre en production des algorithmes d'IA est difficile, car cela fait intervenir des compétences très différentes.

  • La maîtrise des algorithmes de Machine et Deep Learning pour être capable de répondre à différentes problématiques qui interviennent (aide à la décision, scoring, traitement de données, ...).
  • La mise en place de solutions pour la gestion du cycle de vie des modèles, notamment pour automatiser les phases d'expérimentation et de production des modèles.
  • La construction d'architectures scalables dans le Cloud pour supporter de très grandes charges de travail.

Là où les algorithmes de Machine et Deep Learning demandent des connaissances approfondies en Data Science, la construction d'architectures requiert une bonne maîtrise en administration système et en déploiement applicatif, qui sont souvent l'affaire du DevOps.

Le ML Engineer, par son expérience en tant que Data Scientist, a su acquérir les compétences orientées infrastructure et déploiement, lui permettant ainsi de mettre en production des modèles de Machine Learning.

C'est un profil très recherché par les entreprises avec très souvent des salaires élevés. Si tu as déjà de l'expérience en Data Science et que mettre les mains dans le moteur ne te fais pas peur, alors fonce !

Articles similaires

Blog

20 sept. 2022

Machine Learning

Hugging Face est une startup française qui s'est fait connaître grâce à l'infrastructure NLP qu'ils ont développée. Aujourd'hui, elle est sur le point de révolutionner le domaine du Machine Learning et traitement automatique du langage naturel. Dans cet article, nous allons présenter Hugging Face et détailler les taches de base que cette librairie permet de réaliser. Nous allons également énumérer ses avantages et ses alternatifs.

Nada Belaidi

Équipe Blent

Data Scientist

Lire l'article

Blog

12 juil. 2022

Machine Learning

spaCy est une bibliothèque open-source pour le traitement avancé du langage naturel. Elle est conçue spécifiquement pour une utilisation en production et permet de construire des applications qui traitent et comprennent de grands volumes de texte.

Nada Belaidi

Équipe Blent

Data Scientist

Lire l'article

Blog

4 juil. 2022

Machine Learning

Un auto-encodeur est une structure de réseaux neuronaux profonds qui s'entraîne pour réduire la quantité de données nécessaires pour représenter une donnée d'entrée. Ils sont couramment utilisés en apprentissage automatique pour effectuer des tâches de compression de données, d'apprentissage de représentations et de détection de motifs.

Nada Belaidi

Équipe Blent

Data Scientist

Lire l'article