Publications des agents du Cirad

Cirad

Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS

Zenasni S., Kergosien E., Roche M., Teisseire M.. 2016. In : Actes de la conférence TALN'16. Paris : AFCP; ATALA, p. 403-410. Conférence sur le Traitement Automatique des Langues Naturelles (TALN'2016). 23, 2016-07-04/2016-07-08, Paris (France).

DOI: 10.18167/DVN1/LPY080

Dans le contexte des masses de données aujourd'hui disponibles, de nombreux travaux liés à l'analyse de l'information spatiale s'appuient sur l'exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L'objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d'un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d'abréviations, variation par rapport à l'écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.

Documents associés

Communication de congrès

Agents Cirad, auteurs de cette publication :