5-9 juin 2023 PARIS (France)
DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées
Sylvain Verdy  1@  , Maxime Prieur  2, *@  , Guillaume Gadek  3, *@  , Cédric Lopez  1, *@  
1 : Emvista
Emvista
2 : laboratoire CEDRIC du CNAM, Paris
Conservatoire National des Arts et Métiers [CNAM], Airbus Defense and Space
3 : Airbus Defense and Space, Elancourt
Airbus Defense and Space
* : Auteur correspondant

Ces dernières années, les contributions majeures qui ont eu lieu en apprentissage automatique supervisé ont mis en evidence la nécessité de disposer de grands jeux de données annotés de haute qualité. Les recherches menées sur la tâche de reconnaissance d'entités nommées dans des textes en français font face à l'absence de jeux de données annotés "à grande échelle" et avec de nombreuses classes d'entités hiérarchisées. Dans cet article, nous proposons une approche pour obtenir un tel jeu de données qui s'appuie sur des étapes de traduction puis d'annotation des données textuelles en anglais vers une langue cible (ici au français). Nous évaluons la qualité de l'approche proposée et mesurons les performances de quelques modèles d'apprentissage automatique sur ces données.


Personnes connectées : 6 Vie privée
Chargement...