Publications des agents du Cirad

Cirad

Identification des unités de mesure dans les textes scientifiques

Berrahou S.L., Buche P., Dibie-Barthélemy J., Roche M.. 2015. In : Actes de la conférence TALN'2015. Caen : 2015, p. 404-410. Conférence sur le Traitement Automatique des Langues Naturelles (TALN'2015), 2015-06-22/2015-06-25, Caen (France).

Le travail présenté dans cet article se situe dans le cadre de l'identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d'unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l'apprentissage supervisé. Cette méthode permet de réduire sensiblement l'espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l'espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l'espace de recherche réduit aux variants d'unités, utilise une nouvelle mesure de similarité permettant d'identifier automatiquement les variants découverts par rapport à un terme d'unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié.

Documents associés

Communication de congrès

Agents Cirad, auteurs de cette publication :