5-9 juin 2023 PARIS (France)
Sous-espaces de préfixes
Louis Falissard  1, *@  , Vincent Guigue  2@  , Laure Soulier  1, 3@  
1 : Institut des Systèmes Intelligents et de Robotique
Centre National de la Recherche Scientifique, Sorbonne Université, Centre National de la Recherche Scientifique : UMR7222
2 : AgroParisTech
Université Paris Saclay, INRAe, AgroParisTech, UMR MIA-Paris, 75005, Paris, France
3 : Laboratoire Interdisciplinaire des Sciences du Numérique
Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Université Paris-Saclay, Centre National de la Recherche Scientifique
* : Auteur correspondant

Cet article propose une nouvelle façon d'ajuster des modèles de langue en "Few-shot learning" se basant sur une méthode d'optimisation récemment introduite en vision informatique, l'apprentissage de sous-espaces de modèles. Cette méthode, permettant de trouver non pas un point minimum local de la fonction coût dans l'espace des paramètres du modèle, mais tout un simplexe associé à des valeurs basses, présente typiquement des capacités de généralisation supérieures aux solutions obtenues par ajustement traditionnel. L'adaptation de cette méthode aux gros modèles de langue n'est pas triviale mais son application aux méthodes d'ajustement dites "Parameter Efficient" est quant à elle relativement naturelle. On propose de plus une façon innovante d'utiliser le simplexe de solution étudié afin de revisiter la notion de guidage de l'ajustement d'un modèle par l'inférence d'une métrique de validation, problématique d'actualité en "few-shot learning". On montre finalement que ces différentes contributions centrées autour de l'ajustement de sous-espaces de modèles est empiriquement associée à un gain considérable en performances de généralisation sur les tâches de compréhension du langage du benchmark GLUE, dans un contexte de "few-shot learning".


Personnes connectées : 1 Vie privée
Chargement...