CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

sciencesconf.org:coria-taln-2023:461752

Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases

Nicolas Hiebel 1, @ , Ferret Olivier 2, *, @ , Karën Fort 3, *, @ , Aurélie Névéol 4, *, @

1 : Laboratoire Interdisciplinaire des Sciences du Numérique

Université Paris-Saclay, Centre National de la Recherche Scientifique

2 : Laboratoire d'Intégration des Systèmes et des Technologies

CEA, CNRS, Université Paris-Saclay, CEA Saclay 91191 Gif sur Yvette France

3 : Laboratoire Lorrain de Recherche en Informatique et ses Applications

Institut National de Recherche en Informatique et en Automatique, Université de Lorraine, Centre National de la Recherche Scientifique, Centre National de la Recherche Scientifique : UMR7503

4 : Laboratoire Interdisciplinaire des Sciences du Numérique

Université Paris-Saclay, Centre National de la Recherche Scientifique

* : Auteur correspondant

Les ressources textuelles disponibles dans le domaine biomédical sont rares pour des raisons de confidentialité. Des données existent mais ne sont pas partageables, c'est pourquoi il est intéressant de s'inspirer de ces données pour en générer de nouvelles sans contrainte de partage. Une difficulté majeure de la génération de données médicales est que les données générées doivent ressembler aux données originales sans compromettre leur confidentialité. L'évaluation de cette tâche est donc difficile.
Dans cette étude, nous étendons l'évaluation de corpus cliniques générés en français en y ajoutant une dimension sémantique à l'aide de plongements de phrases. Nous recherchons des phrases proches à l'aide de similarité cosinus entre plongements, et analysons les scores de similarité. Nous observons que les phrases synthétiques sont thématiquement proches du corpus original, mais suffisamment éloignées pour ne pas être de simples reformulations qui compromettraient la confidentialité.

Type :	:	TALN - Travaux de recherche originaux - Courts
Langue du texte intégral	:	français
Thématiques	:	Booster + posters et démos
Mots-Clés	:	Génération ; Évaluation ; Similarité ; Texte clinique ; Texte synthétique ; Français

Vie privée | Accessibilité