Soutenance de thèse de Haodi ZHANG Jeudi 1er juin 2023 à l'INSA Rouen Normandie

Date :

...
La soutenance de thèse de Haodi ZHANG aura lieu le jeudi 1 juin à 10h dans la Salle BO-A-RC-02 du bâtiment Bougainville de l'INSA de Rouen Normandie.
Cette thèse, réalisée à l'Institut National des Sciences Appliquées de Rouen Normandie au sein de l'équipe STI (Systèmes de Transports Intelligents) du LITIS s'intitule : 
 
"Détection d'objets 3D par fusion multimodale basée sur l'apprentissage profond"
 
La soutenance aura lieu devant le jury composé de :
M. Dominique GRUYER, Directeur de recherche, Université Gustave Eiffel, Rapporteur
Mme Sylvie CHAMBON, Maître de conférences HDR, Toulouse INP, Rapporteuse
M. Fawzi NASHASHIBI, Directeur de recherche, INRIA Paris-Rocquencourt, Examinateur
M. Paul HONIENE, Professeur, Université de Rouen Normandie, Examinateur
Mme Farah CHEHADE, Maître de conférences HDR, Université de technologie de Troyes, Examinatrice
M. Abdelaziz BENSRHAIR, Professeur, Institut National des Sciences Appliquées de Rouen Normandie, Directeur
Mme Alexandrina ROGOZAN, Maitre de Conférence, Institut National des Sciences Appliquées de Rouen Normandie, Encadrante

Résumé
La détection d'objets en 3D est un élément clé du module de perception du véhicule autonome. Après la détection, la position spatiale de l'objet est indiquée dans une boîte de délimitation cubique. Les tâches ultérieures du pipeline, telles que la reconnaissance, la segmentation et la prédiction, reposent sur une détection précise. Au cours des cinq dernières années, la détection d'objets en 3D a suscité de plus en plus d'attention. De nombreux algorithmes excellents basés sur l'apprentissage profond ont été proposés et ont permis de réaliser des progrès significatifs en matière de précision de détection. 
Diverses modalités de données sont disponibles pour la détection d'objets en 3D, l'image et le LiDAR étant les deux modalités les plus couramment adoptées. La modalité LiDAR est préférée par la plupart des détecteurs en raison de la précision de ses informations de profondeur qui délimitent spatialement l'objet. En revanche, la modalité image est limitée par l'ambiguïté des informations de profondeur, d'où une précision insuffisante de la détection d'objets en 3D. Certains travaux pionniers tentent d'exploiter à la fois les informations de profondeur précises et les riches informations sémantiques en fusionnant les deux modalités. Cependant, il n'existe pas encore de paradigme de fusion dont l'efficacité a été largement prouvée. En outre, toutes les méthodes existantes de détection d'objets 3D par fusion reposent sur l'hypothèse de données synchronisées. Plus le nombre de modalités augmente, plus la fréquence de synchronisation diminue, ce qui entraîne un goulot d'étranglement dans l'efficacité de la détection. Cela réduira évidemment la sécurité des véhicules autonomes.
Pour répondre aux questions ci-dessus, cette thèse propose les contributions suivantes, résumées en quatre points : 1) La distorsion lors de l'évaluation de la note de précision moyenne en utilisant la méthode d'interpolation à N points est révélée. La distorsion de la précision moyenne qui peut conduire à l'échec de l'évaluation du serveur est complètement analysée. Afin de résoudre le problème de distorsion, nous proposons une méthode d'interpolation à N points améliorée. En modifiant la méthode de calcul de la zone de l'intervalle d'interpolation et l'emplacement du point d'interpolation, la distorsion de la précision moyenne est correctement éliminée. 2) Nous introduisons un modèle d'optimisation d'image unifié pour supprimer les zones redondantes qui partagent les mêmes images de paramètres échantillonnés. Au lieu d'optimiser chaque image, l'algorithme NPAE proposé estime et récolte la zone non piétonne commune pour toutes les images. Par conséquent, l'algorithme NPAE peut réduire la consommation de temps de détection tout en maintenant la précision de détection. 3) Ensuite, nous explorons la méthode de fusion tardive des données multimodales synchrones. Un grand nombre de faux positifs sont observés dans les propositions de détection d'objets 3D basées sur la seule modalité LiDAR. Ces propositions de faux positifs peuvent être classées dans la modalité image. Par conséquent, toutes les propositions sont projetées sur le plan de l'image pour vérification par le classificateur d'image. Ce modèle de fusion multi-modale tardive est appelé vérification cross-modale (CMV). Après le traitement du modèle CMV, les faux positifs sont réduits de 50%. 4) Enfin, nous découvrons un nouveau scénario de fusion multimodale asynchrone et proposons une solution. Le flux de données asynchrone est largement présent dans les procédures d'échantillonnage de capteurs pour des modalités multiples. L'utilisation complète des données asynchrones permet d'augmenter de manière significative la fréquence des données fournies pour la détection par un véhicule autonome. Dans ce but, nous proposons le détecteur d'objets 3D à fusion multimodale asynchrone (AF3D). Il peut fonctionner à la fois en état synchrone et asynchrone. De plus, AF3D a la capacité de fusionner des données asynchrones avec des données synchrones. Dans ce cas, la précision de détection de l'image asynchrone avec seulement la modalité image est considérablement améliorée.