Les cachalots (Physeter macrocephalus) sont les plus grands des cétacés à dents. Comme tous les cétacés, ils communiquent notamment par des émissions vocales. Les cachalots produisent des clics au cours de leurs activités vitales et leurs interactions sociales. Certains de ces sons sont organisés en séquences temporelles, appelées « codas ». Depuis plus d'une dizaine d'années, des échanges audio ou « conversations » entre cachalots sont enregistrés dans de nombreux endroits dans le monde, par exemple dans l'Océan Pacifique, dans les Caraïbes et dans l'Océan Indien. La particularité des échanges vocaux entre cachalots fait que ces codas sont numérisables relativement facilement. Ainsi, il existe des corpus de transcriptions de conversations en particulier venant des origines géographiques citées.
Durant 2022, une collaboration entre le Service NLP de Dassault Systèmes et l'équipe Bioacoustique de Sorbonne Université, basée sur les enregistrements sonores collectés et mis à disposition par Longitude 181 et Label Bleu Production, nous a permis d'initier un projet d'application des techniques de Text Mining et Traitement Automatique du Langage à l'étude du langage des cachalots. Nous avons exposé les premiers résultats du projet dans un article publié dans les Actes de l'atelier TextMine'23 de la conférence EGC'2023 concernant un corpus de cachalots résidents au large de l'Ile Maurice et identifiés individuellement.
Nous utilisons dans ce projet le logiciel Proxem Studio, qui a la particularité de pouvoir être appliqué sans modèle de langue préalable car il peut construire des modèles de langue à partir des corpus à analyser.
L'objectif du projet couvre les points suivants :
- Optimiser et automatiser la transcription en codas des échanges audio entre cachalots,
- Analyser les propriétés formelles du langage des cachalots : mettre en évidence que l'ordre entre codas a une importance, et découvrir s‘il est possible de décrire une proto-syntaxe de ce langage,
- Mettre au point un référentiel d'éléments non linguistiques (comportements sociaux, données démographiques, relations familiales) et identifier des codas ou des séquences de codas montrant une corrélation avec ces éléments non linguistiques, et in fine, avancer des hypothèses sur la fonction de certaines codas ou séquences de codas,
- Etudier les corrélations entre les participants à chaque conversation et les codas émis afin de déterminer si des codas ou séquences de codas peuvent être associées à des individus.
Le projet bénéficie d'un financement de Dassault Systèmes et de Sorbonne Université. La fin du projet est prévue pour décembre 2024.
Nos résultats vont contribuer ainsi à décrire le sophistiqué langage d'une espèce non-humaine.