CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:461872

Géométrie de l'auto-attention en classification : quand la géométrie remplace l'attention

Loïc Fosse 1, *, @ , Duc Hau Nguyen 2, @ , Pascale Sébillot 1, *, @ , Guillaume Gravier 2, *, @

1 : Institut de Recherche en Informatique et Systèmes Aléatoires

Université de Rennes, Institut National des Sciences Appliquées - Rennes, Institut National de Recherche en Informatique et en Automatique, Centre National de la Recherche Scientifique

2 : Institut de Recherche en Informatique et Systèmes Aléatoires

Université de Rennes, Institut National de Recherche en Informatique et en Automatique, Centre National de la Recherche Scientifique

* : Auteur correspondant

Plusieurs études ont mis en évidence l'anisotropie des plongements issus d'un modèle BERT au sein d'un énoncé, c'est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d'auto-attention. Nous montrons que la direction vers laquelle les plongements s'alignent caractérise la classe d'appartenance de l'énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d'auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d'une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s'avère également robuste à des contraintes externes sur la distribution des poids d'attention, compensées par le modèle en jouant sur les valeurs et les clés.

Type :	:	TALN - Travaux de recherche originaux - Longs
Langue du texte intégral	:	français
Thématiques	:	session commune 2
Mots-Clés	:	classification ; auto ; attention ; transformers ; bertologie

Vie privée | Accessibilité