5-9 juin 2023 PARIS (France)
Production automatique de gloses interlinéaires à travers un modèle probabiliste exploitant des alignements
Shu Okabe  1, *@  , François Yvon  1, *@  
1 : Laboratoire Interdisciplinaire des Sciences du Numérique
Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Université Paris-Saclay, Centre National de la Recherche Scientifique
* : Auteur correspondant

La production d'annotations linguistiques ou gloses interlinéaires explicitant le sens ou la fonction de chaque unité repérée dans un enregistrement source (ou dans sa transcription) est une étape importante du processus de documentation des langues. Ces gloses exigent une très grande expertise de la langue documentée et un travail d'annotation fastidieux. Notre étude s'intéresse à l'automatisation partielle de ce processus. Il s'appuie sur la partition des gloses en deux types : les gloses grammaticales exprimant une fonction grammaticale, les gloses lexicales indiquant les unités de sens. Notre approche repose sur l'hypothèse d'un alignement entre les gloses lexicales et une traduction ainsi que l'utilisation de Lost, un modèle probabiliste de traduction automatique. Nos expériences sur une langue en cours de documentation, le tsez, montrent que cet apprentissage est effectif même avec un faible nombre de phrases de supervision.


Personnes connectées : 2 Vie privée
Chargement...