Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
Fize J.. 2019. Montpellier : Université de Montpellier, 195 p.. Thèse de doctorat -- Informatique.
DOI: 10.18167/DVN1/KH7YTO
DOI: 10.18167/DVN1/JLXBLA
DOI: 10.18167/DVN1/MWQQOQ
DOI: 10.18167/DVN1/8LIG1D
Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des
Mots-clés : fouille de données; analyse de données; traitement des données; fouille de textes
Documents associés
Thèse