Par Nada Belaidi
Data Scientist
Publié le 21 févr. 2022
Catégorie Machine Learning
Si vous avez déjà travaillé avec des jeux de données contenant beaucoup de variables, vous savez que cela peut présenter des problèmes. Comprenez-vous toutes vos variables et les relations entre-elles ? Avez-vous tellement de variables que vous risquez de surcharger ou sur-apprendre votre modèle ?
Pour éviter tout cela, les Data Scientists ont recours généralement à l'ACP ou l’Analyse en Composantes Principales. C’est une méthode de réduction de la dimensionnalité qui améliore la performance des algorithmes de Machine Learning car elle élimine les variables corrélées qui ne contribuent à aucune prise de décision.
Dans cet article, nous allons détailler la notion de réduction des dimensions, le fonctionnement de l’ACP, comment et quand faut-il l’utiliser.
La réduction de dimension est un processus étudié en mathématiques et en informatique. Il consiste à prendre des données dans un espace de grande dimension, et à les remplacer par d'autres dans un espace de dimension inférieure, mais qui contiennent encore la plupart des renseignements contenues dans le grand ensemble.
Autrement dit, on cherche à construire moins de variables tout en conservant le maximum d'informations possible.
En Machine Learning, ce processus de traitement de données est crucial dans certains cas, parce que les jeux de données plus petits sont plus faciles à explorer, exploiter et à visualiser, et rendent l’analyse des données beaucoup plus facile et plus rapide.
À lire aussi : découvrez notre formation MLOps
Cette étape est importante aussi dans les cas du sur-apprentissage et des données très éparses (fléau de la dimensionnalité), qui nécessitent beaucoup de temps et de puissance de calcul pour les étudier.
En utilisant un espace de plus petite dimension, on obtient des algorithmes plus efficaces, ainsi qu'un panel de solutions plus réduit.
En Data Science, il existe aujourd'hui plusieurs méthodes et techniques pour réduire la dimension d'un ensemble de données. Chaque méthode est utilisée dans des cas spécifiques et avec des types de données précis. Parmi ces méthodes on peut citer:
En Machine Learning, l'un des concepts les plus importants d’algèbre linéaire est la décomposition de valeur singulière (SVD). L’idée est de décomposer une matrice dans le produit unique de 3 autres matrices.
SVD est similaire à L'ACP, mais plus générale. L'ACP suppose que la matrice d'entrée est carré, alors que SVD n’a pas cette hypothèse. La formule générale de SVD est
On peut dire maintenant dire que est une compression de , cette méthode est utilisée généralement pour compression d’image et débruitage des données.
Ce sont des réseaux de neurones qui visent à copier leurs sorties sur leurs entrées. Ils fonctionnent en comprimant l’entrée dans une représentation d’espace latent, puis en reconstruisant la sortie à partir de cette représentation. Ce type de réseau est composé de trois parties :
Cette méthode est généralement utilisée avec dans la Computer Vision pour la génération d'images.
La sélection des variables (ou Feature Selection en englais), est le processus de sélection des variables les plus importantes à utiliser dans les algorithmes Machine Learning.
Des techniques de sélection des variables sont utilisées pour réduire le nombre de variables d’entrée en éliminant les fonctionnalités redondantes ou non pertinentes pour le modèle. Parmi ces techniques on peut citer:
La Feature Selection est l’approche la plus connue parmi celles de réduction de dimensionnalité. Plusieurs autres peuvent être citées en guise d'exemple comme la réduction avec la cartographie isométrique, la LDA (Linear Discriminant Analysis), l'algorithme t-SNE (t-distributed Stochastic Neighbor Embedding), et bien évidemment l'ACP.
L’analyse des composantes principales, ou ACP, est une méthode de réduction de la dimensionnalité qui est souvent utilisée pour transformer un grand ensemble de variables en un ensemble plus petit qui contient encore la plupart des renseignements dans le grand ensemble. On parle aussi souvent de PCA, de son nom anglais Principal Components Analysis.
L'idée est de transformer des variables corrélées en nouvelles variables décorrélées en projetant les données dans le sens de la variance croissante. Les variables avec la variance maximale seront choisies comme les composants principaux.
À lire aussi : découvrez notre formation MLOps
Pour faire cela, on doit tout d'abord trouver une nouvelle base orthonormée dans laquelle on va représenter nos données, telle que la variance de ces données selon ces nouveaux axes est maximisée.
Prenons l'exemple suivant.
On remarque ici, dans le premier repère, que la variance des données selon l'axe rouge est grande. Si on projette les points sur cet axe, ils auront tous des coordonnées différentes mais on continue à pouvoir distinguer les points les uns des autres, en utilisant cet axe comme unique dimension, on réduit la dimension de nos données (de 2 à 1).
Prenons un autre exemple plus détaillée pour expliquer l'ACP étape par étape.
La première étape consiste à normaliser son ensemble de données en utilisant la formule suivante: $$X'=\frac{X-\mu}{\sigma}
(A-\lambda) ν = 0
\det (A-\lambda) = 0
Articles similaires
20 sept. 2022
Machine Learning
Nada Belaidi
Data Scientist
Lire l'article
12 juil. 2022
Machine Learning
Nada Belaidi
Data Scientist
Lire l'article
4 juil. 2022
Machine Learning
Nada Belaidi
Data Scientist
Lire l'article
60 rue François 1er
75008 Paris
Blent est une plateforme 100% en ligne pour se former aux métiers Tech & Data.
Organisme de formation n°11755985075.
Data Engineering
À propos
Gestion des cookies
© 2023 Blent.ai | Tous droits réservés