5-9 juin 2023 PARIS (France)
Stratégies d'apprentissage actif pour la reconnaissance d'entités nommées en français
Marco Naguib  1, *@  , Aurélie Névéol  1, *@  , Xavier Tannier  2, *@  
1 : Laboratoire Interdisciplinaire des Sciences du Numérique
Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Université Paris-Saclay, Centre National de la Recherche Scientifique
2 : Laboratoire d'Informatique Médicale et Ingénierie des Connaissances en e-Santé
Institut National de la Santé et de la Recherche Médicale, Sorbonne Université, Université Sorbonne Paris nord
* : Auteur correspondant

L'annotation manuelle de corpus est un processus coûteux et lent, notamment pour la tâche de re-
connaissance d'entités nommées. L'apprentissage actif vise à rendre ce processus plus efficace, en
sélectionnant les portions les plus pertinentes à annoter. Certaines stratégies visent à sélectionner les
portions les plus représentatives du corpus, d'autres, les plus informatives au modèle de langage.
Malgré un intérêt grandissant pour l'apprentissage actif, rares sont les études qui comparent ces
différentes stratégies dans un contexte de reconnaissance d'entités nommées médicales. Nous pro-
posons une comparaison de ces stratégies en fonction des performances de chacune sur 3 corpus de
documents cliniques en langue française : MERLOT, QuaeroFrenchMed et E3C. Nous comparons
les stratégies de sélection mais aussi les différentes façons de les évaluer. Enfin, nous identifions les
stratégies qui semblent les plus efficaces et mesurons l'amélioration qu'elles présentent, à différentes
phases de l'apprentissage.


Personnes connectées : 4 Vie privée
Chargement...