5-9 juin 2023 PARIS (France)
CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé
Rian Touchent  1, *@  , Laurent Romary  1@  , Eric De La Clergerie  1@  
1 : Inria de Paris
Institut National de Recherche en Informatique et en Automatique
* : Auteur correspondant

Les données cliniques dans les hôpitaux sont de plus en plus accessibles pour la recherche à travers les entrepôts de données de santé, cependant ces documents sont non-structurés. Il est donc nécessaire d'extraire les informations des comptes-rendus médicaux. L'utilisation du transfert d'apprentissage grâce à des modèles de type BERT comme CamemBERT ont permis des avancées majeures, notamment pour la reconnaissance d'entités nommées. Cependant, ces modèles sont entraînés pour le langage courant et sont moins performants sur des données biomédicales. C'est pourquoi nous proposons un nouveau jeu de données biomédical public français sur lequel nous avons poursuivi le pré-entraînement de CamemBERT. Ainsi, nous présentons une première version de CamemBERT-bio, un modèle public spécialisé pour le domaine biomédical français qui montre un gain de 2,54 points de F-mesure en moyenne sur différents jeux d'évaluations de reconnaissance d'entités nommées biomédicales.


Personnes connectées : 1 Vie privée
Chargement...