CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:461962

Portabilité linguistique des modèles de langage pré-appris appliqués à la tâche de dialogue humain-machine en français

Ahmed Njifenjou 1, *, @ , Virgile Sucal 1, *, @ , Bassam Jabaian 1, *, @ , Fabrice Lefèvre 1, *, @

1 : Laboratoire Informatique dÁvignon

Avignon Université, Centre d'Enseignement et de Recherche en Informatique - CERI

* : Auteur correspondant

Dans cet article, nous proposons une étude de la portabilité linguistique des modèles de langage pré-appris (MLPs) appliqués à une tâche de dialogue à domaine ouvert. La langue cible (L_T) retenue dans cette étude est le français. Elle dispose de peu de ressources spécifiques pour la tâche considérée et nous permet de réaliser une évaluation humaine. La langue source (L_S) est l'anglais qui concentre la majorité des travaux récents dans ce domaine. Construire des MLPs spécifiques pour chaque langue nécessite de collecter de nouveaux jeux de données et cela est coûteux. Ainsi, à partir des ressources disponibles en L_S et L_T, nous souhaitons évaluer les performances atteignables par un système de conversation en L_T . Pour cela, nous proposons trois approches : TrainOnTarget où le corpus L_S est traduit vers L_T avant l'affinage du modèle, TestOnSource où un modèle L_S est couplé avec des modules de traduction au moment du décodage et TrainOnSourceAdaptOnTarget, qui utilise un MLP multilingue - ici BLOOM (BigScience Workshop, 2022) - avec l'architecture MAD-X Adapter (Pfeiffer et al., 2020) pour apprendre la tâche en L_S et l'adapter à L_T . Les modèles sont évalués dans des conditions de dialogue oral et les stratégies sont comparées en termes de qualité perçue lors l'interaction.

Type :	:	TALN - articles déjà soumis ou acceptés en conférence internationale - Courts
Langue du texte intégral	:	français
Thématiques	:	Booster + posters et démos
Mots-Clés	:	Agent conversationnel ; Transformers ; Portabilité multilingue ; Langue peu dotée

Vie privée | Accessibilité