Publications des agents du Cirad

Cirad

Conversion automatique de modèles et de jeux de données pour l'exploration conceptuelle : application à une base de connaissances du vivant

Keip P.. 2021. Montpellier : Université de Montpellier, 134 p.. Thèse de doctorat -- Information, structures et systèmes.

DOI: 10.18167/DVN1/HTFE8T

DOI: 10.18167/DVN1/5AASZE

DOI: 10.18167/DVN1/VNCZYA

Les Sciences du vivant et de l'environnement génèrent de nombreuses bases de données et de connaissances. L'exploration conceptuelle est une approche de fouille de données qui permet d'en extraire de nouvelles connaissances. Les méthodes d'exploration conceptuelle considérées dans ce travail relèvent de l'Analyse de Concepts Formels (FCA). Toute méthode issue de FCA imposant en entrée une structuration prédéfinie des données, la question de recherche traitée concerne la conversion automatique d'une base de données ou de connaissances en vue de son exploration avec FCA ou avec l'Analyse de Concepts Relationnels (RCA), une extension aux données multi-relationnelles. Pour asseoir ce travail, nous avons utilisé la base de connaissances Knomana, qui rassemble des descriptions d'usage de plantes. Selon les connaissances considérées, diverses problématiques de conversion doivent être résolues pour permettre une fouille de données pertinente par les utilisateurs finaux. Ces problématiques peuvent se situer au niveau du schéma (modèle de classes) ou au niveau des instances, principalement (1) la conversion des relations de spécialisation en aplatissant la hiérarchie d'héritage; (2) la conversion d'une relation ternaire via la matérialisation ou des relations binaires, et (3) la levée de l'indétermination de la désignation d'organismes vivants par l'usage de l'abréviation spp. dans sa dénomination binominale (linnéenne). La méthodologie adoptée relève de l'ingénierie dirigée par les modèles, de la transformation des bases de données, du refactoring en ingénierie logicielle et de la conversion d'ontologies. Cette thèse présente un algorithme général de conversion d'un jeu de connaissances pour RCA, dont la structure est représentée sous la forme d'un diagramme de classes au format UML. L'algorithme est appliqué à Knomana et diverses modélisations de la relation ternaire en relations binaires et une modélisation de la levée de l'indétermination d'un nom d'espèce sont expériment

Mots-clés : fouille de données; analyse de données; banque de données; système basé sur la connaissance; plante pesticide

Documents associés

Thèse