Publications des agents du Cirad

Cirad

Extraction d'informations sur les itinéraires techniques phytosanitaires d'un corpus historique

Vajic A., Valentin S., Lavarenne J.. 2026. Le Lamentin : CIRAD, 1 p.. Séminaire d'animation scientifique au CAEC "Le suivi et la modélisation des pressions pesticides agricoles en outre-mer", 2026-04-22/2026-04-22, Le Lamentin (Martinique).

Cette communication présente un travail d'extraction automatique d'informations sur les itinéraires techniques phytosanitaires appliqués aux Antilles françaises au XXe siècle, à partir d'un corpus historique de 98 textes en français. L'objectif est de repérer, dans des sources textuelles non structurées et parfois dégradées par la conversion PDF vers XML, les éléments nécessaires à la reconstitution des pratiques phytosanitaires : espèces végétales cultivées, pesticides, substances actives, doses et expressions temporelles. Deux approches sont discutées. La première, lexicale, s'appuie sur une liste de substances actives publiée par l'ANSES ; elle offre un bon contrôle des entités retenues mais reste limitée par les variantes lexicales, les erreurs textuelles et le manque d'exhaustivité. La seconde utilise GLiNER, un modèle de reconnaissance d'entités nommées permettant de définir des étiquettes en langue naturelle ; elle est plus robuste face aux imperfections du corpus mais produit davantage de bruit. La communication expose les premiers résultats, les difficultés de validation et les pistes de nettoyage, notamment le regroupement de variantes à l'aide de plongements lexicaux et la validation assistée. Les prochaines étapes portent sur l'annotation du corpus et l'extraction des doses et des informations temporelles.

Documents associés

Communication de congrès

Agents Cirad, auteurs de cette publication :