5-9 juin 2023 PARIS (France)
DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique
Yanis Labrak  1, 2@  , Adrien Bazoge  3@  , Richard Dufour  3@  , Mickael Rouvier  1@  , Emmanuel Morin  3@  , Béatrice Daille  3@  , Pierre-Antoine Gourraud  4, 5@  
1 : Laboratoire Informatique dÁvignon
Avignon Université, Centre d'Enseignement et de Recherche en Informatique - CERI
2 : Zenidoc
Zenidoc
3 : Laboratoire des Sciences du Numérique de Nantes
Institut National de Recherche en Informatique et en Automatique, Centre National de la Recherche Scientifique : UMR6004, IMT Atlantique, Nantes Université - École Centrale de Nantes, Nantes université - UFR des Sciences et des Techniques, Centre National de la Recherche Scientifique
4 : Team 3 : Integrative transplantation, HLA, Immunology and genomics of kidney injury
Centre de Recherche en Transplantation et Immunologie - Center for Research in Transplantation and Translational Immunology
5 : Team 5 : Neuroinflammation, mechanisms, therapeutic options (NEMO)
Centre de Recherche en Transplantation et Immunologie - Center for Research in Transplantation and Translational Immunology

Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d'établissements de santé. Nous évaluons également différentes stratégies d'apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés.


Personnes connectées : 2 Vie privée
Chargement...