CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

sciencesconf.org:coria-taln-2023:461183

Production automatique de gloses interlinéaires à travers un modèle probabiliste exploitant des alignements

Shu Okabe 1, *, @ , François Yvon 1, *, @

1 : Laboratoire Interdisciplinaire des Sciences du Numérique

Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Université Paris-Saclay, Centre National de la Recherche Scientifique

* : Auteur correspondant

La production d'annotations linguistiques ou gloses interlinéaires explicitant le sens ou la fonction de chaque unité repérée dans un enregistrement source (ou dans sa transcription) est une étape importante du processus de documentation des langues. Ces gloses exigent une très grande expertise de la langue documentée et un travail d'annotation fastidieux. Notre étude s'intéresse à l'automatisation partielle de ce processus. Il s'appuie sur la partition des gloses en deux types : les gloses grammaticales exprimant une fonction grammaticale, les gloses lexicales indiquant les unités de sens. Notre approche repose sur l'hypothèse d'un alignement entre les gloses lexicales et une traduction ainsi que l'utilisation de Lost, un modèle probabiliste de traduction automatique. Nos expériences sur une langue en cours de documentation, le tsez, montrent que cet apprentissage est effectif même avec un faible nombre de phrases de supervision.

Type :	:	TALN - Travaux de recherche originaux - Longs
Langue du texte intégral	:	français
Thématiques	:	TALN 3
Mots-Clés	:	génération de gloses interlinéaires ; documentation automatique des langues ; alignement de mots

Vie privée | Accessibilité