5-9 juin 2023 PARIS (France)
Outiller l'occitan : nouvelles ressources et lemmatisation
Aleksandra Miletić  1, *@  
1 : Department of Digital Humanities, University of Helsinki
* : Auteur correspondant

Ce travail présente des contributions récentes à l'effort de doter l'occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.


Personnes connectées : 3 Vie privée
Chargement...