Date :
Joseph ASSAKER soutiendra sa thèse vendredi 4 Juillet 2025 à 9h45, dans l’amphithéâtre D, UFR ST, Université de Rouen, technopôle du Madrillet.
Intitulée « Unsupervised Learning-based Information Retrieval Applied to Spot Patterns in Historical Document Images », cette thèse marque l’aboutissement de ses travaux de recherche, menés sous la direction de M. Laurent Heutte et le co-encadrement de M. Stéphane Nicolas. Le jury inclura également les membres suivants :
Mme EGLIN Veronique (INSA de Lyon): Examinatrice
Mme MOKRAOUI Anissa (Université Sorbonne Paris Nord): Rapporteure
M. AUBRY Mathieu (Ecole des Ponts ParisTech): Rapporteur
La soutenance sera également accessible en visioconférence ; le lien sera communiqué ultérieurement.
Résumé : Les documents historiques possèdent une valeur culturelle immense, mais leur exploitation soulève de nombreux défis en matière d’accès à l’information et d’analyse. Cette thèse s’intéresse à deux tâches spécifiques dans le contexte des images de documents historiques : la recherche de sous-images (sub-image retrieval) et la détection de motifs (pattern spotting). La recherche de sous-images consiste à retrouver les images contenant une requête image donnée, tandis que la détection de motifs va plus loin en localisant les occurrences de cette requête image au sein des images retrouvées. Ces tâches présentent deux défis majeurs :
i) les requêtes de recherche sont arbitraires et ne se limitent pas à un ensemble prédéfini de motifs, ce qui impose à l’approche proposée de pouvoir traiter des requêtes non connues à l’avance ; ii) la plupart des méthodes modernes d’apprentissage profond reposent sur des données annotées, qui sont rares, voire inexistantes, dans le domaine des documents historiques.
En raison de ces contraintes, les travaux antérieurs sur ces tâches se sont limités à des approches sans apprentissage, s’appuyant uniquement sur des réseaux pré-entraînés disponibles. Dans cette thèse, nous proposons la première approche basée sur l’apprentissage pour traiter ces problématiques. Cela implique de relever le défi de concevoir une solution d’apprentissage dans un contexte sans données d’entraînement disponibles et sans ensemble fixe de motifs à détecter ou à retrouver. Notre objectif est d’ouvrir une nouvelle voie pour aborder ces tâches, que nous considérons comme plus évolutive et pérenne, car l’apprentissage de représentations spécifiques au domaine et à la tâche devrait permettre des solutions plus flexibles et adaptables.
À cette fin, nous développons un nouveau modèle pour le repérage de motifs, nommé OS-DETR. Ce modèle adapte l’architecture performante DETR, à base de transformeurs et initialement conçue pour la détection d’objets, afin de répondre aux tâches de recherche de sous-image et de détection de motifs.
Pour pallier le manque de données étiquetées, nous proposons une méthode simple de génération de données synthétiques annotées, adaptées à ces tâches. Ces données synthétiques sont ensuite utilisées pour entraîner notre modèle OS-DETR, et différentes variantes et choix de conception sont explorés.
Un ensemble de techniques de généralisation est ensuite introduit, visant à améliorer les performances du modèle au-delà du domaine synthétique. Ces techniques interviennent à plusieurs niveaux du pipeline, allant de l’architecture du modèle et des stratégies d’entraînement jusqu’à la génération des données synthétiques et les étapes de post-traitement.
Nous montrons l'impact de ces techniques et le bien fondé de notre démarche via de nombreuses expérimentations, à la fois sur un ensemble de tests générés synthétiquement, et sur un ensemble de données de référence publiquement disponible pour les images de documents historiques.
Enfin, nous présentons des expérimentations préliminaires explorant une approche alternative pour la génération de données d’entraînement, ouvrant ainsi des perspectives de recherche prometteuses.
Mots-clés : Recherche de Sous-Images, Détection de Motifs, Détection d'Objets en One-Shot, Génération de Données Synthétiques, Transformer.