Imaginez une salle remplie de personnes avec différents intérêts, hobbies, et comportements. Comment les regrouperiez-vous ? par similitude ? Le clustering, dans l'univers de la Data Science, suit cette même logique.
Il s'agit d'une technique qui identifie des similarités dans des points de données pour les assembler en groupes. Une salle bruyante se transforme alors en groupes harmonieux et compréhensibles. C'est une méthode d'apprentissage non supervisée, ce qui signifie qu'elle ne nécessite pas de données préalablement étiquetées pour détecter des motifs.
Plusieurs algorithmes de clustering existent (k-means, hiérarchique, basé sur la densité, etc.) et le choix de l'algorithme dépend principalement de la tâche spécifique et du jeu de données en question.