CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

sciencesconf.org:coria-taln-2023:461759

Étude de la fidélité des entités dans les résumés par abstraction

Eunice Akani 1, 2, 3, @

1 : Laboratoire dÍnformatique et Systèmes

Aix Marseille Université, Université de Toulon, Centre National de la Recherche Scientifique, Aix Marseille Université : UMR7020, Université de Toulon : UMR7020, Centre National de la Recherche Scientifique : UMR7020

2 : Enedis

ENEDIS

3 : Traitement Automatique du Langage Ecrit et Parlé

Laboratoire d'Informatique et Systèmes

L'un des problèmes majeurs dans le résumé automatique de texte par abstraction est la fidélité du résumé généré vis-à-vis du document. Les systèmes peuvent produire des informations incohérentes vis-à-vis du document. Ici, nous mettons l'accent sur ce phénomène en restant focalisé sur les entités nommées. L'objectif est de réduire les hallucinations sur celles-ci. Ainsi, nous avons généré des résumés par sampling et avons sélectionné, à l'aide d'un critère basé sur le risque d'hallucination sur les entités et les performances du modèle, ceux qui minimisent les hallucinations sur les entités. Une étude empirique du critère montre son adaptabilité pour la sélection de résumé. Nous avons proposé des heuristiques pour la détection des entités qui sont des variations ou flexions d'autres entités. Les résultats obtenus montrent que le critère réduit les hallucinations sur les entités nommées en gardant un score ROUGE comparable pour CNN/DM.

Type :	:	RJC (RECITAL/RJCRI)
Langue du texte intégral	:	français
Thématiques	:	session commune 4
Mots-Clés	:	Résumé automatique de texte ; hallucination ; entité nommée

Vie privée | Accessibilité