Normalisation automatique des variables issues de bases de données en agroécologie
Mechhour O.. 2023. Villetaneuse : Université Sorbonne-Paris-Nord, 53 p.. Mémoire de master 2 -- Informatique.
DOI: 10.18167/DVN1/XDHKR8
Ce rapport de stage présente une étude réalisée au sein de l'UMR TETIS, située à la Maison De la Télédétection sur le campus Agropolis de Montpellier, en collaboration avec l'UR AIDA. Le stage s'est focalisé sur l'importance de la correspondance des variables sources et candidates en agroécologie. L'objectif principal de ce stage était de résoudre la problématique liée à l'hétérogénéité des variables utilisées par les chercheurs en agroécologie. Cependant, chaque chercheur a sa propre méthode de nomination et de description des variables sources, ce qui rend la correspondance complexe et sujette à des erreurs. Pour aborder cette problématique, différentes méthodes de représentation des données textuelles ont été explorées, telles que TF-IDF [1] et des approches basées sur des modèles de langues tels que BERT-base (section 3.3.2), BERT-large (section 3.3.2), RoBERTa (section 3.3.4) et XLNet (section 3.3.3), pour la vectorisation des noms et des descriptions des variables. Des mesures de similarité, telles que la distance de Levenshtein [2] et le cosinus [3], ont été appliquées pour évaluer la proximité entre les variables. Les résultats obtenus ont démontré des améliorations significatives par rapport aux approches précédentes [5]. Cependant, certaines limites ont été identifiées, notamment le nombre limité de variables en anglais, la formulation non canonique des variables, les descriptions courtes et l'absence de prise en compte des ontologies associées. Des recommandations ont été formulées pour surmonter ces limites, telles que la traduction des variables dans la même langue que les ontologies, la canonisation des variables non canoniques, l'extension du corpus avec des Données multilingues et hétérogènes, et l'utilisation de Méthodes de plongement de mots et de mesure de similarité. Ce rapport met en évidence l'importance de la correspondance des variables en agroécologie. Les résultats obtenus offrent de nouvelles perspectives pour une meilleure utilisation et
Documents associés
Mémoire
Agents Cirad, auteurs de cette publication :
- Mechhour Oussama — Persyst / UPR AIDA