Publications des agents du Cirad

Cirad

Mise en correspondance de données textuelles hétérogènes à partir d'informations sémantiques

Yahi N., Belhadef H., Roche M.. 2016. In : Samira Si-said Cherfi (ed.), Fayçal Hamdi (ed.). Atelier qualité des données du Web (QLOD'16). Reims : Université de Reims Champagne-Ardenne, p. 1-6. Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances. 16, 2016-11-18/2016-11-22, Reims (France).

Dans cet article, nous présentons une approche pour mesurer la similarité sémantique entre des textes hétérogènes et de qualité différente provenant de différentes sources Web. Notre approche commence par extraire le contenu des textes par deux méthodes : (i) utilisation d'un système d'extraction que nous avons implanté et qui identifie tous les mots contenus dans un texte donné, (ii) utilisation d'un thésaurus multilingue (AGROVOC). Ensuite, nous combinons les résultats des deux approches afin de mesurer la similarité entre les représentations textuelles des documents. Afin d'évaluer les résultats, nous nous appuyons sur deux ensembles de données hétérogènes issus du Web (tweets et articles scientifiques).

Documents associés

Communication de congrès

Agents Cirad, auteurs de cette publication :