Publications des agents du Cirad

Cirad

Instanciation de relations n-Aires dans des articles scientifiques guidée par une Ressource Termino-Ontologique de domaine

Lentschat M.. 2021. Montpellier : Université de Montpellier, 210 p.. Thèse de doctorat -- Informatique.

DOI: 10.18167/DVN1/1BBJBQ

DOI: 10.18167/DVN1/U7HK8J

DOI: 10.18167/DVN1/GCZBC9

Cette thèse s'inscrit dans le domaine de recherche des smart data, où nous recherchons des informations spécifiques au sein de documents textuels. Elle consiste à proposer de nouvelles méthodes de représentation et d'extraction de données expérimentales à partir d'articles scientifiques. Ces méthodes ont été évaluées sur un corpus d'articles dans le domaine des emballages alimentaires. Les données expérimentales peuvent être représentées sous forme de relations n-Aires composées d'arguments symboliques et quantitatifs. Ces derniers sont constitués d'une valeur numérique et d'une unité de mesure. L'objectif de cette thèse est de peupler une base de connaissances d'instances de relations N-Aires extraites de documents scientifiques textuels. L'approche proposée s'appuie sur une Ressource Termino-Ontologique (RTO) et se décompose en deux Phases : (1) la reconnaissance et l'extraction des instances d'arguments d'intérêt et (2) la mise en relation de ces instances dans des relations n-Aires. La Phase (1) propose une représentation originale des instances d'arguments extraites, appelée SciPuRe (Scientifique Publication Representation). Celle-ci intègre des descripteurs ontologiques, lexicaux et structurels qui décrivent le contexte d'apparition des instances d'arguments et permet de les trier selon leurs pertinences. La Phase (2) s'appuie sur les informations présentes dans les tableaux des documents, extraits automatiquement, pour guider l'extraction des relations n-Aires à partir de relations partielles, les tableaux contenant une part importante des données expérimentales dans les articles scientifiques. Ces relations partielles sont ensuite complétées par les instances d'arguments reconnues lors de la Phase (1). Trois approches sont proposées et évaluées afin d'identifier les instances d'arguments qui doivent compléter les relations : l'utilisation de la structure des documents, l'analyse des cooccurrences entre les instances d'arguments dans les textes, et enfin l'ut

Mots-clés : données expérimentales; terminologie; ontologie de domaine; fouille de textes; fouille de données; système de relations

Documents associés

Thèse