5-9 juin 2023 PARIS (France)
Géométrie de l'auto-attention en classification : quand la géométrie remplace l'attention
Loïc Fosse  1, *@  , Duc Hau Nguyen  2@  , Pascale Sébillot  1, *@  , Guillaume Gravier  2, *@  
1 : Institut de Recherche en Informatique et Systèmes Aléatoires
Université de Rennes, Institut National des Sciences Appliquées - Rennes, Institut National de Recherche en Informatique et en Automatique, Centre National de la Recherche Scientifique
2 : Institut de Recherche en Informatique et Systèmes Aléatoires
Université de Rennes, Institut National de Recherche en Informatique et en Automatique, Centre National de la Recherche Scientifique
* : Auteur correspondant

Plusieurs études ont mis en évidence l'anisotropie des plongements issus d'un modèle BERT au sein d'un énoncé, c'est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d'auto-attention. Nous montrons que la direction vers laquelle les plongements s'alignent caractérise la classe d'appartenance de l'énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d'auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d'une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s'avère également robuste à des contraintes externes sur la distribution des poids d'attention, compensées par le modèle en jouant sur les valeurs et les clés.


Personnes connectées : 7 Vie privée
Chargement...