Publications des agents du Cirad

Cirad

Combinaison d'étiqueteurs morphosyntaxiques, de lexiques flexionnels et de marqueurs de glose pour détecter les néologismes en français du Burkina

Zoumbara C., Roche M., Diwersy S., Ouedraogo Y., Martin P.. 2020. In : Lexicometrica - Actes des JADT'2020. Toulouse : LERASS, 13 p.. Journées Internationales d'Analyse statistique des Données Textuelles (JADT 2020). 15, 2020-06-16/2020-06-19, Toulouse (France).

Le français du Burkina est marqué par le multilinguisme national. Dans l'objectif d'extraire automatiquement des néologismes sur des données textuelles, nous avons développé l'approche Extranéo. Celle-ci intègre des outils de Traitement automatique du langage naturel (TALN) pour détecter les néologismes formels et leurs contextes d'utilisation. Extranéo combine un étiqueteur morphosyntaxique et un lexique flexionnel pour identifier les néologismes candidats, validés ensuite manuellement. L'usage de patrons de glose permet enfin d'accéder aux contextes des néologismes validés. Dans cet article, quatre étiqueteurs morphosyntaxiques, cinq lexiques flexionnels et des marqueurs de glose sont évalués afin de détecter les plus performants. Les résultats montrent que sur les articles de journaux, l'étiqueteur TreeTagger obtient la plus forte F-mesure, 0.86 en matière d'étiquetage. Sur l'identification des néologismes candidats, les lexiques DELA et Morphalou obtiennent la Fmesure la plus élevée, 0.52. La mise en relief des contextes des néologismes validés révèle que le contexte définitoire détient la précision la plus élevée, à savoir 0.49, devant les contextes de dénomination (0.22) et d'équivalence (0.24).

Documents associés

Communication de congrès

Agents Cirad, auteurs de cette publication :