CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:458407

DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique

Yanis Labrak 1, 2, @ , Adrien Bazoge 3, @ , Richard Dufour 3, @ , Mickael Rouvier 1, @ , Emmanuel Morin 3, @ , Béatrice Daille 3, @ , Pierre-Antoine Gourraud 4, 5, @

1 : Laboratoire Informatique dÁvignon

Avignon Université, Centre d'Enseignement et de Recherche en Informatique - CERI

2 : Zenidoc

Zenidoc

3 : Laboratoire des Sciences du Numérique de Nantes

Institut National de Recherche en Informatique et en Automatique, Centre National de la Recherche Scientifique : UMR6004, IMT Atlantique, Nantes Université - École Centrale de Nantes, Nantes université - UFR des Sciences et des Techniques, Centre National de la Recherche Scientifique

4 : Team 3 : Integrative transplantation, HLA, Immunology and genomics of kidney injury

Centre de Recherche en Transplantation et Immunologie - Center for Research in Transplantation and Translational Immunology

5 : Team 5 : Neuroinflammation, mechanisms, therapeutic options (NEMO)

Centre de Recherche en Transplantation et Immunologie - Center for Research in Transplantation and Translational Immunology

Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d'établissements de santé. Nous évaluons également différentes stratégies d'apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés.

Type :	:	TALN - articles déjà soumis ou acceptés en conférence internationale - Courts
Langue du texte intégral	:	français
Thématiques	:	Booster + posters et démos
Mots-Clés	:	BERT ; RoBERTa ; Transformers ; Biomédical ; Clinique ; Modèle de langue

Vie privée | Accessibilité