CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

sciencesconf.org:coria-taln-2023:461902

Les données cliniques dans les hôpitaux sont de plus en plus accessibles pour la recherche à travers les entrepôts de données de santé, cependant ces documents sont non-structurés. Il est donc nécessaire d'extraire les informations des comptes-rendus médicaux. L'utilisation du transfert d'apprentissage grâce à des modèles de type BERT comme CamemBERT ont permis des avancées majeures, notamment pour la reconnaissance d'entités nommées. Cependant, ces modèles sont entraînés pour le langage courant et sont moins performants sur des données biomédicales. C'est pourquoi nous proposons un nouveau jeu de données biomédical public français sur lequel nous avons poursuivi le pré-entraînement de CamemBERT. Ainsi, nous présentons une première version de CamemBERT-bio, un modèle public spécialisé pour le domaine biomédical français qui montre un gain de 2,54 points de F-mesure en moyenne sur différents jeux d'évaluations de reconnaissance d'entités nommées biomédicales.

Type :	:	TALN - Travaux de recherche originaux - Longs
Langue du texte intégral	:	français
Thématiques	:	session commune 3
Mots-Clés	:	comptes rendus médicaux ; TAL clinique ; CamemBERT ; extraction d'information ; biomédical ; reconnaissance d'entités nommées

Vie privée | Accessibilité