Publications des agents du Cirad

Cirad

Un algorithme big-data pour la local-PLS

Metz M., Lesnoff M., Roger J.M.. 2019. In : Livret des résumés des 20èmes Rencontres HélioSPIR. Montpellier : HélioSPIR, p. 12-12. Rencontres HélioSPIR. 20, 2019-10-14/2019-10-15, Montpellier (France).

La spectrométrie proche infrarouge peut fournir d'énormes quantités de données à l'agriculture numérique. Un des outils principaux utilisé pour analyser les spectres est la PLS. La méthode a prouvé sa pertinence pour les petites bases de données homogènes. Son extension aux bases de taille moyenne est la "local-PLS" : elle détermine un voisinage de l'individu à prédire, puis réalise une PLS sur ce voisinage. Cette méthode combine la puissance de la méthode des k plus proches voisins et de la PLS. Cependant, cette méthode n'est pas capable de traiter de grandes bases de données qui apparaîtront dans un futur proche. Les algorithmes local-PLS actuels utilisent tous des algorithmes k-NN (méthode force brute) pour lesquels les temps de calcul deviennent irréalistes ; d'autres algorithmes doivent être considérés. Nous proposons d'étudier un algorithme de réduction de dimensionnalité et de recherche rapide du voisinage utilisé pour traiter de grands ensembles de séries chronologiques (ayant une structure de données similaire aux spectres NIR) : ParSketch. Dans cette présentation, nous allons étudier la méthode ParSketch et la comparer à la méthode k-nn. Pour cela, nous avons traité un problème de classification et étudié les résultats des méthodes ParSketch-PLS-DA, Knn(force brute)-PLS-DA et PLS-DA.

Documents associés

Communication de congrès

Agents Cirad, auteurs de cette publication :