5-9 juin 2023 PARIS (France)
HATS : Un jeu de données intégrant la perception humaine appliquée à l'évaluation des métriques de transcription de la parole
Thibault Bañeras-Roux  1@  , Jane Wottawa  2, *@  , Mickael Rouvier  3, *@  , Teva Merlin  3, *@  , Richard Dufour  1, *@  
1 : Équipe TALN
Laboratoire des Sciences du Numérique de Nantes
2 : Laboratoire d'Informatique de l'Université du Mans
Le Mans Université
3 : Laboratoire Informatique dÁvignon
Avignon Université, Centre d'Enseignement et de Recherche en Informatique - CERI
* : Auteur correspondant

Traditionnellement, les systèmes de reconnaissance automatique de la parole (RAP) sont évalués sur leur capacité à reconnaître correctement chaque mot contenu dans un signal vocal. Dans ce contexte, la mesure du taux d'erreur-mot est la référence pour évaluer les transcriptions vocales. Plusieurs études ont montré que cette mesure est trop limitée pour évaluer correctement un système de RAP, ce qui a conduit à la proposition d'autres variantes et d'autres métriques. Cependant, toutes ces métriques restent orientées ``système'' alors même que les transcriptions sont destinées à des humains. Dans cet article, nous proposons un jeu de données original annoté manuellement en termes de perception humaine des erreurs de transcription produites par divers systèmes de RAP. Plus de 120 humains ont été invités à choisir la meilleure transcription automatique entre deux hypothèses. Nous étudions la relation entre les préférences humaines et diverses mesures d'évaluation pour les systèmes de RAP, y compris les mesures lexicales et celles fondées sur les plongements de mots.


Personnes connectées : 2 Vie privée
Chargement...