Vanishing & Exploding Gradients – Aladdin et le téléphone arabe

Classé dans : Uncategorized | 0
Le téléphone arabe et autres expressions colonialistes (Chinese whispers, bush telegraph...) désignent la déformation d’informations orales par le bouche-à-oreille. (Généré via ChatGPT le 2 décembre 2024).
Il était une fois, il y a bien longtemps de cela, un pays imaginaire où les hautes écoles ne s’honoraient guère des larges talents pédagogiques dont s’enorgueillit aujourd’hui notre institution. Nous t’y transportons comme par magie, dans un cours de Neural Advanced Network. Pour tromper l’ennui, tu entreprends de chuchoter un conte des 1001 Nuits à la dernière de tes petits camarades de la rangée du fond, Tinou. Entre vous, trois copains que nous appellerons, par convenance, Olivier, Sophie et Alexandra.

Et tu commences…

Il était une fois – derechef – dans une cité mythique du monde arabo-musulman, un jeune homme pauvre qui avait aperçu la fille du roi et en était tombé amoureux…

Et la voix du savoir de marteler, sans répit : « Le deep learning, consiste à apprendre à un réseau de neurones artificiels à faire des prédictions. Le réseau, multicouche, comporte les neurones d’entrée avec les données d’apprentissage (input), les couches cachées (l’espace latent où les neurones décomposent les informations en caractéristiques) et la sortie (output). »

Toujours aussi soporifique ? Viens. Nous allons enseigner les contes des 1001 Nuits à la Machine. En input, tu insères Aladdin (forward pass). Olivier, Sophie et Alexandra (couche cachée) le décomposent et identifient progressivement ses caractéristiques. Ils transmettent l’histoire à Tinou (sortie).

Si celle-ci s’exclame « C’est le conte d’Ali Baba ! », c’est que le bush telegraph, ou téléphone arabe, a distordu son output. Il te faut mesurer son erreur et faire demi-tour. Remonte les couches pour ajuster le poids des informations transmises par chacun des trois copains précités.

 

Généré via ChatGPT le 3 décembre 2024.

Vanishing Gradients

Dans un réseau très profond (avec beaucoup de couches), certaines informations se perdent en remontant. Lorsqu’elles arrivent à la sortie, il n’y a presque plus rien à corriger. Le réseau « oublie » les premières étapes.

  • Tu contes le récit d’Aladdin à l’oreille de Sophie : Il y avait une fois, dans une cité du monde arabo-musulman du XIIe siècle, un jeune homme pauvre qui avait aperçu la fille du roi et en était tombé amoureux.
  • Sophie le transmet à Olivier et à Alexandra : “Il y avait une fois dans une cité du monde [arabe…], un jeune homme pauvre qui avait aperçu la fille du roi et en était tombé amoureux.
  • Olivier à Tinou : « Il y avait une fois [] un jeune homme pauvre qui avait aperçu une fille [de roi] et en était tombé amoureux.
  • Alexandra à Tinou : « Il y avait une fois [] un jeune homme [pauvre] qui avait aperçu une fille [] et en était tombé amoureux.

Sophie a omis le contexte historique, Olivier, le statut de la jeune fille et Alexandra, le milieu social d’Aladdin. Tinou a produit une approximation statistique des versions d’Aladdin où celui-ci pourrait bien se retrouver en costume de tweed dans les fifties avec une belle en robe de gala.

Généré via ChatGPT le 2 décembre 2024.

Exploding Gradients

 

C’est l’inverse : les informations prennent plus en plus de poids en remontant les couches.

  • Tu contes à l’oreille de Sophie : Aladdin, qui avait du génie, eut l’idée de frotter la lampe. Un djinn (un génie) en sortit, lui proposant d’exaucer trois de ses vœux.
  • Sophie transmet à Olivier et Alexandra : “ Aladdin, qui avait du génie, eut l’idée de frotter la lampe et un djinn imposant en sortit, lui proposant d’exaucer…
  • Olivier à Tinou : « Aladdin, qui avait emporté du Génie, eut l’idée de frotter la lampe et un très grand génie en sortit, qui lui proposa d’exaucer…
  • Alexandra à Tinou : Aladdin, qui avait emporté du Génie, eut l’idée de frotter la lampe et l’un des plus grands génies de l’histoire en sortit, lui proposant d’exaucer…

Sophie a donné du poids au djinn (génie en arabe). Olivier, soucieux qu’il est de ses lainages, a introduit un biais de contexte en confondant le génie avec une lessive. Alexandra, toujours admiratrice des grands humanistes, a un peu trop insisté sur l’ampleur du génie. Le génie pèse trop lourd dans ce réseau.

Aladdin tenant une lessive dans une main et la poupée d'Einstein dans l'autre.
Généré via ChatGPT le 2 déecembre 2024.


Une histoire d'amour...

Deux hommes amoureux sur un tapis volant.
Généré - à grand peine - via ChatGPT le 4 décembre 2024.

NdA : les stratégies d’apprentissage oniriques présentées ici n’engagent que leur auteur. Il est recommandé de réviser régulièrement et d’écouter attentivement en classe.

Bibliographie

IBM. Qu’est-ce qu’un réseau neuronal récurrent (RNN) ?. IBM topics. https://www.ibm.com/fr-fr/topics/recurrent-neural-networks [consulté le 4 décembre 2024].

DEEP AI, Inc. Exploding Gradient Problem. DeepAI.org (glossaire). https://deepai.org/machine-learning-glossary-and-terms/exploding-gradient-problem [consulté le 4 décembre 2024].

DEEPLIZARD, 2018. Vanishing & Exploding Gradient explained | A problem resulting from backpropagation. 23 mars 2018. Disponible à l’adresse : https://www.youtube.com/watch?v=qO_NLVjD6zE [consulté le 4 décembre 2024].

Pour aller plus loin: ZUCCHET, Nicolas & ORVIETO, Antonio, 2024. Recurrent neural networks: vanishing and exploding gradients are not the end of the story. arXiv [en ligne]. 5 novembre 2024. 40 pages. DOI : https://doi.org/10.48550/arXiv.2405.21064

Carnet d'IdéeS - blog du Master IS

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *