CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

sciencesconf.org:coria-taln-2023:460982

Classification automatique de données déséquilibrées et bruitées : application aux exercices de manuels scolaires

Elise Lincker 1, 2, @ , Camille Guinaudeau 3, 4, *, @ , Olivier Pons 5, *, @ , Jérôme Dupire 5, @ , Isabelle Barbet 5, @ , Céline Hudelot 6, @ , Vincent Mousseau 6, @ , Caroline Huron 7, 8, @

1 : CEDRIC

Conservatoire National des Arts et Métiers (CNAM)

2 : Laboratoire Interdisciplinaire des Sciences du Numérique

Université Paris-Saclay, Centre National de la Recherche Scientifique

3 : Japanese French Laboratory for Informatics, CNRS, NII

4 : Université Paris-Saclay

Université Paris-Sud - Université Paris-Saclay

5 : CEDRIC

Conservatoire National des Arts et Métiers (CNAM)

6 : Mathématiques et Informatique pour la Complexité et les Systèmes

CentraleSupélec, Université Paris-Saclay

7 : System Engineering and Evolution Dynamics

Université Sorbonne Paris Cité, Institut National de la Santé et de la Recherche Médicale - INSERM

8 : Learning Planet Institute [Paris]

Learning Planet Institute [Paris]

* : Auteur correspondant

Pour faciliter l'inclusion scolaire, il est indispensable de pouvoir adapter de manière automatique les manuels scolaires afin de les rendre accessibles aux enfants dyspraxiques. Dans ce contexte, nous proposons une tâche de classification des exercices selon leur type d'adaptation à la dyspraxie. Nous introduisons un corpus d'exercices extraits de manuels de français de niveau élémentaire, qui soulève certains défis de par sa petite taille et son contenu déséquilibré et bruité. Afin de tirer profit des modalités textuelles, structurelles et visuelles présentes dans nos données, nous combinons des modèles état de l'art par des stratégies de fusion précoce et tardive. Notre approche atteint une exactitude globale de 0.802. Toutefois, les expériences témoignent de la difficulté de la tâche, particulièrement pour les classes minoritaires, pour lesquelles l'exactitude tombe à 0.583.

Type :	:	TALN - articles déjà soumis ou acceptés en conférence internationale - Courts
Langue du texte intégral	:	français
Thématiques	:	Booster + posters et démos
Mots-Clés	:	adaptation de manuels scolaires ; classification multimodale ; données bruitées ; données déséquilibrées

Vie privée | Accessibilité