CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:461741

Recherche cross-modale pour répondre à des questions visuelles

Paul Lerner 1, *, @ , Olivier Ferret 2, *, @ , Camille Guinaudeau 1, *, @

1 : Laboratoire Interdisciplinaire des Sciences du Numérique

Université Paris-Saclay, Centre National de la Recherche Scientifique

2 : Laboratoire dÍntégration des Systèmes et des Technologies

Direction de Recherche Technologique (CEA), Direction de Recherche Technologique (CEA) : DRT/LIST

* : Auteur correspondant

Répondre à des questions visuelles à propos d'entités nommées (KVQAE) est une tâche difficile qui demande de rechercher des informations dans une base de connaissances multimodale. Nous étudions ici comment traiter cette tâche avec une recherche cross-modale et sa combinaison avec une recherche mono-modale, en se focalisant sur le modèle CLIP, un modèle multimodal entraîné sur des images appareillées à leur légende textuelle. Nos résultats démontrent la supériorité de la recherche cross-modale, mais aussi la complémentarité des deux, qui peuvent être combinées facilement. Nous étudions également différentes manières d'ajuster CLIP et trouvons que l'optimisation cross-modale est la meilleure solution, étant en adéquation avec son pré-entraînement. Notre méthode surpasse les approches précédentes, tout en étant plus simple et moins coûteuse. Ces gains de performance sont étudiés intrinsèquement selon la pertinence des résultats de la recherche et extrinsèquement selon l'exactitude de la réponse extraite par un module externe. Nous discutons des différences entre ces métriques et de ses implications pour l'évaluation de la KVQAE.

Type :	:	CORIA - Longs
Langue du texte intégral	:	français
Thématiques	:	session commune 1
Mots-Clés	:	questions visuelles ; multimodalité ; recherche crossmodale ; entités nommées

Vie privée | Accessibilité