Etudes sur la géolocalisation de Tweets
1 : Institut National des Sciences Appliquées de Lyon
Institut National des Sciences Appliquées, Université de Lyon
La géolocalisation de textes non structurés est un problème de recherche consistant à extraire un
contexte géographique d'un texte court. Sa résolution passe typiquement par une recherche de termes
spatiaux et de la désambiguïsation.
Dans cet article, nous proposons une analyse du problème, ainsi que deux méthodes d'inférence pour
déterminer le lieu dont traite un texte :
1. Comparaison de termes spatiaux à un index géographique
2. Géolocalisation de textes sans information géographique à partir d'un graphe de co-occurrence
de termes (avec et sans composante temporelle)
Nos recherches sont basées sur un dataset de 10 millions de Tweets traitant de lieux français, dont
57 830 possèdent une coordonnée géographique.