Soutenance de thèse de Dhruv JAIN - Jeudi 8 décembre 2025 à l'INSA Rouen Normandie

Date :

...
Drhuv Jain souviendra sa thèse intitulée : "Apprentissage sur données limitées par optimisation des représentations latentes".

La soutenance aura lieu le jeudi 8 décembre à 10h00 à l'INSA Rouen Normandie, salle BO.A.RC.02, ou en visio à https://zoom.us/j/94029387654?pwd=NVveSa7ar9sYNZEaTkoMftwRpWGnUf.1

Le jury est composé de:

- Mathieu Hatt, LaTIM, INSERM, UMR 1101, Univ Brest, Directeur de recherche, Rapporteur
- Nicolas Loménie, Paris Cité, Professeur des universités, Rapporteur
- John Lee, UCLouvain, Professeur, Examinateur
- Pauline Hinault, Institut du Cancer de Montpellier, Docteur, Examinatrice
- Su Ruan, University of Rouen Normandy, Professeur des universités, Examinatrice
- Aurélien Corroyer-Dulmont, Centre François Baclesse, Docteur HDR, Examinateur
- Romain Modzelewski, AIMS/QuantIF Lab - Centre Henri Becquerel, Encadrant
- Romain Hérault, Université de Caen, GREYC, Normandie Université, Professeur des universités, Directeur

Résumé:

Le deep learning a transformé de nombreux domaines, de la conduite autonome à l’imagerie médicale, mais son adoption en santé demeure confrontée à des défis importants. L’imagerie clinique repose sur des modalités volumiques telles que le computed tomography (CT), imagerie par résonance magnétique (IRM) et le Cone-beam CT (CBCT), qui sont à la fois de haute dimension, hétérogènes et souvent affectées par du bruit ou des artefacts d’acquisition. La génération de données annotées représente un autre obstacle majeur, car le marquage au niveau voxel nécessite l’expertise spécialisée et un temps considérable. Par conséquent, les bases de données disponibles sont généralement de petite taille et déséquilibrées. Les modèles entraînés dans de tels contextes ont tendance à surapprendre, à généraliser difficilement et à ne pas capturer les dépendances à long terme nécessaires à la représentation de structures anatomiques complexes. Ces limitations soulèvent la question centrale de cette thèse : comment concevoir des méthodes data-efficient capables d’améliorer les performances pour des tâches telles que la classification et la segmentation lorsque les données annotées sont rares ?
Cette thèse aborde ces défis à trois niveaux : les données, le modèle et l’application.
Au niveau des données, nous proposons Mixing OCSVM Negatives (MiOC), un nouveau cadre de pré-entraînement contrastif. Le contrastive learning standard repose fortement sur la qualité des négatifs, or les échantillons négatifs tirés aléatoirement sont souvent trop simples ou sémantiquement ambigus. MiOC introduit un échantillonnage guidé par one-class support vector machine (OCSVM) pour identifier des négatifs inliers à l’intérieur d’une hypersphère autour de l’embedding de la requête, puis les mélange avec ces requêtes afin de générer des négatifs
synthétiques difficiles. Cette approche élargit l’espace des hard negatives au-delà du simple classement par produit scalaire, produisant ainsi des représentations plus riches et plus discriminantes. Des expériences sur plusieurs bases de données (ImageNet-100, CIFAR-10, CIFAR-100, STL-10, CINIC-10) montrent des améliorations constantes en classification en aval, MiOC surpassant les modèles de l’état de l’art avec seulement un petit ajout de négatifs synthétiques à la file d’attente existante.
Au niveau du modèle, nous développons Diff-UMamba, une architecture de segmentation qui intègre des blocs mamba à espace d’états sélectif avec un module de réduction de bruit. Ce module effectue un différentiel de signal au niveau du goulot d’étranglement de l’encodeur, supprimant les activations bruitées et mettant en valeur les caractéristiques cliniquement pertinentes. En réduisant le surapprentissage et en modélisant les dépendances à longue portée, Diff-UMamba offre une meilleure généralisation dans les contextes de données limitées. Des évaluations étendues sur BRaTS21, MSD (poumon et pancréas), AIIB23 et un jeu interne non-small cell lung cancer (NSCLC) montrent des gains de performance de 1 à 5 % par rapport aux architectures de référence de type Convolutional neural network (CNN), transformer et mamba.
Au niveau de l’application, nous concevons une chaîne dédiée à la segmentation du volume tumoral macroscopique GTV en radiothérapie adaptative guidée par CBCT, où les tumeurs sont difficiles à distinguer en raison du faible contraste et des artefacts d’imagerie. Le modèle Diff-UMamba, combinant raffinements différentiels et modules mamba, démontre une délinéation du GTV robuste et précise. L’intégration des contours du CT de planification rigidement recalés comme priors améliore encore les scores de Dice, dépassant les méthodes de recalage déformable ainsi que les approches deep learning de pointe. Dans leur ensemble, ces contributions font progresser l’apprentissage en contexte de rareté de données en améliorant la qualité des représentations, la robustesse architecturale et l’applicabilité clinique. Ce travail montre que des méthodes soigneusement conçues permettent d’atténuer les contraintes liées au manque d’annotations et d’assurer un déploiement plus fiable des méthodes de deep learning dans des scénarios à données limitées.