CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

sciencesconf.org:coria-taln-2023:461887

Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales

Aidan Mannion 1, @ , Schwab Didier 1, @ , Lorraine Goeuriot 1, @ , Thierry Chevalier 2, @

1 : Université Grenoble Alpes

Laboratoire d'Informatique de Grenoble

2 : Université Grenoble Alpes - UFR Médecine - Département de Maïeutique

Université Grenoble Alpes

Des travaux récents dans le domaine du traitement du langage naturel ont démontré l'efficacité des modèles de langage pré-entraînés pour une grande variété d'applications générales. Les modèles de langage à grande échelle acquièrent généralement ces capacités en modélisant la distribution statistique des mots par un apprentissage auto-supervisé sur de grandes quantités de texte. Toutefois, pour les domaines spécialisés à faibles ressources, tels que le traitement de documents cliniques, en particulier dans des langues autres que l'anglais, la nécessité d'intégrer des connaissances structurées reste d'une grande importance. Cet article se concentre sur l'une de ces applications spécialisées de la modélisation du langage à partir de ressources limitées : l'extraction d'informations à partir de documents biomédicaux et cliniques en français. En particulier, nous montrons qu'en complétant le pré-entraînement en mots masqués des réseaux neuronaux transformer par des objectifs de prédiction extraits d'une base de connaissances biomédicales, leurs performances sur deux tâches différentes de reconnaissance d'entités nommées en français peuvent être augmentées.

Type :	:	TALN - Travaux de recherche originaux - Longs
Langue du texte intégral	:	français
Thématiques	:	TALN 1
Mots-Clés	:	TALN biomédical/clinique ; extraction des informations ; apprentissage automatique

Vie privée | Accessibilité