5-9 juin 2023 PARIS (France)
État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement
Emmanuelle Salin  1@  
1 : Laboratoire dÍnformatique et Systèmes
Aix Marseille Université, Université de Toulon, Centre National de la Recherche Scientifique, Aix Marseille Université : UMR7020, Université de Toulon : UMR7020, Centre National de la Recherche Scientifique : UMR7020

Après avoir été développée en traitement automatique du langage, l'architecture Transformer s'est démocratisée dans de nombreux domaines de l'apprentissage automatique. Elle a permis de surpasser l'état de l'art dans de nombreuses tâches et a conduit à la création de très grands jeux de données afin d'améliorer les performances des modèles.

 

En multimodalité vision-langage, les résultats encourageants des Transformers favorisent la collecte de données image-texte à très grande échelle. Cependant, il est difficile d'évaluer la qualité de ces nouveaux jeux de données, ainsi que leur influence sur la performance de ces modèles, car notre compréhension des Transformers vision-langage est encore limitée.

Nous explorons les études du domaine pour mieux comprendre les processus de collecte des jeux de données, les caractéristiques de ces données et leurs impacts sur les performances des modèles.


Personnes connectées : 6 Vie privée
Chargement...