CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:459713

Étude comparative des plongements lexicaux pour l'extraction d'entités nommées en français

Danrun Cao 1, *, @ , Nicolat Béchet 1, *, @ , Pierre-François Marteau 1, *, @

1 : Institut de Recherche en Informatique et Systèmes Aléatoires

Universite de Rennes 1, Institut National des Sciences Appliquées - Rennes, Université de Bretagne Sud, École normale supérieure - Rennes, Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Centre National de la Recherche Scientifique, IMT Atlantique

* : Auteur correspondant

Dans ce papier nous présentons une étude comparative des méthodes de plongements lexicaux pour le français sur la tâche de Reconnaissance d'entités nommées (REN). L'objectif est de comparer la performance de chaque méthode sur la même tâche et sous les mêmes conditions de travail. Nous utilisons comme corpus d'étude la proportion française du corpus WikiNER. Il s'agit d'un corpus de 3,5 millions tokens avec 4 types d'entités. 10 types de plongements lexicaux sont étudiés, y compris les plongements non-contextuels, des contextuels et éventuellement ceux à base de transformer. Pour chaque plongement, nous entraînons un BiLSTM-CRF comme classifieur. Pour les modèles à base de transformer, nous comparons également leur performance sous un autre cas d'usage: fine-tuning.

Type :	:	TALN - Travaux de recherche originaux - Longs
Langue du texte intégral	:	français
Thématiques	:	session commune 4
Mots-Clés	:	Plongements lexicaux ; Reconnaissance d'entités nommées ; état de l'art

Vie privée | Accessibilité