Le grokking survient après une phase initiale où un modèle d'IA, en particulier un réseau de neurones, semble simplement mémoriser les données d'entraînement sans les comprendre. Au fur et à mesure de la formation, le modèle passe par une phase de sur-apprentissage, affichant de faibles pertes sur l'ensemble d'entraînement mais peinant à généraliser à de nouvelles données. Puis, de manière quelque peu surprenante, le modèle atteint un point où il commence soudainement à développer une compréhension plus profonde des données, se traduisant par une amélioration notable de sa performance sur des données non vues auparavant.
Ce phénomène est particulièrement observable dans les réseaux surparamétrés, où le nombre de paramètres dépasse le nombre de points de données. Dans de tels cas, après une longue période d'optimisation, le modèle commence à généraliser efficacement, indiqué par une baisse rapide de la perte de validation.
Les recherches suggèrent que pour certaines opérations binaires, plus la taille de l'ensemble de données est petite, plus le modèle doit être optimisé pour atteindre une généralisation efficace. De plus, il a été noté que l'utilisation de la dégradation du poids (weight decay) améliore la capacité de généralisation dans les tâches de grokking.
Les praticiens du deep learning ont observé de petites améliorations dans la précision de validation après que la perte de validation cesse de diminuer. Dans certains cas rares, une double descente de la perte de validation a été observée, ce qui a été perçu comme un cas atypique.
Les recherches sur le grokking continuent d'évoluer, avec l'espoir qu'une meilleure compréhension de ce phénomène conduira à des modèles d'IA plus efficaces et plus fiables. La possibilité que des perturbations aléatoires dans l'optimisation du modèle puissent conduire à des solutions plus simples et mieux généralisables soulève des questions intéressantes sur la nature de l'apprentissage dans les réseaux de neurones.
En résumé, le grokking offre un aperçu intrigant de la manière dont les modèles d'IA peuvent, après une période prolongée de formation, parvenir à une compréhension qui va au-delà de la simple mémorisation des données, ouvrant ainsi de nouvelles avenues pour l'exploration et l'innovation dans le domaine de l'intelligence artificielle.