CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:461982

Sous-espaces de préfixes

Louis Falissard 1, *, @ , Vincent Guigue 2, @ , Laure Soulier 1, 3, @

1 : Institut des Systèmes Intelligents et de Robotique

Centre National de la Recherche Scientifique, Sorbonne Université, Centre National de la Recherche Scientifique : UMR7222

2 : AgroParisTech

Université Paris Saclay, INRAe, AgroParisTech, UMR MIA-Paris, 75005, Paris, France

3 : Laboratoire Interdisciplinaire des Sciences du Numérique

Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Université Paris-Saclay, Centre National de la Recherche Scientifique

* : Auteur correspondant

Cet article propose une nouvelle façon d'ajuster des modèles de langue en "Few-shot learning" se basant sur une méthode d'optimisation récemment introduite en vision informatique, l'apprentissage de sous-espaces de modèles. Cette méthode, permettant de trouver non pas un point minimum local de la fonction coût dans l'espace des paramètres du modèle, mais tout un simplexe associé à des valeurs basses, présente typiquement des capacités de généralisation supérieures aux solutions obtenues par ajustement traditionnel. L'adaptation de cette méthode aux gros modèles de langue n'est pas triviale mais son application aux méthodes d'ajustement dites "Parameter Efficient" est quant à elle relativement naturelle. On propose de plus une façon innovante d'utiliser le simplexe de solution étudié afin de revisiter la notion de guidage de l'ajustement d'un modèle par l'inférence d'une métrique de validation, problématique d'actualité en "few-shot learning". On montre finalement que ces différentes contributions centrées autour de l'ajustement de sous-espaces de modèles est empiriquement associée à un gain considérable en performances de généralisation sur les tâches de compréhension du langage du benchmark GLUE, dans un contexte de "few-shot learning".

Type :	:	CORIA - Longs
Langue du texte intégral	:	français
Thématiques	:	session commune 2
Mots-Clés	:	Modèles de langues ; apprentissages sur petits échantillons ; apprentissage de sous ; espaces ; classification de texte

Vie privée | Accessibilité