CORIA TALN RJCRI RECITAL 2023

coria-taln-2023 : CORIA TALN RJCRI RECITAL 2023

5-9 juin 2023 PARIS (France)

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

sciencesconf.org:coria-taln-2023:461901

Uniformité de la densité informationnelle: le cas du redoublement du sujet

Yiming Liang 1, 2, @ , Pascal Amsili 3, 4, *, @ , Heather Burnett 1, 2, 5, *, @

1 : Laboratoire de Linguistique Formelle

Centre National de la Recherche Scientifique, Université Paris Cité

2 : Université Paris Cité - UFR Linguistique [Sociétés et Humanités]

Université Paris Cité

3 : Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094

Université Sorbonne Nouvelle - Paris 3, Université Sorbonne Paris Cité, Centre National de la Recherche Scientifique, Université Paris sciences et lettres, Département Littératures et langage - ENS Paris

4 : Université Sorbonne Nouvelle - Paris 3

Université Sorbonne Nouvelle - Paris 3, Université Sorbonne Nouvelle - Paris 3

5 : Centre National de la Recherche Scientifique

Centre National de la Recherche Scientifique - CNRS

* : Auteur correspondant

Nous présentons les résultats d'une expérience visant à savoir si la densité d'information (ou de surprise) affecte le redoublement du sujet dans des conversations spontanées. En utilisant la version française de GPT, nous estimons la surprise lexicale du sujet NP étant donné un contexte précédent et vérifions si la surprise du sujet affecte son redoublement. L'analyse de régression à effet mixte montre que, en plus des facteurs qui ont été montrés comme affectant le redoublement du sujet dans la littérature, la prévisibilité du sujet nominal est un prédicteur important du non-redoublement. Les sujets nominaux moins prédictibles tendent à être redoublés par rapport à ceux qui sont plus prédictibles. Notre travail confirme l'intérêt de l'hypothèse de l'Uniformité de la densité informationnelle (UID) pour le français et illustre l'opérationalisation de la densité informationnelle à l'aide de grands modèles neuronaux de langage.

Type :	:	TALN - Travaux de recherche originaux - Longs
Langue du texte intégral	:	français
Thématiques	:	TALN 2
Mots-Clés	:	uniformité de la densité informationnelle ; redoublement du sujet ; surprise ; français oral ; Transformer Génératif Pré ; entraîné (GPT)

Poster

Vie privée | Accessibilité