Soutenance de thèse de Benjamin Deguerre le jeudi 25 novembre à 15h - Salle BO ARC 02 - INSA Rouen Normandie

Date :

...
La soutenance de thèse de Benjamin Deguerre aura lieu le jeudi 25 novembre à 15h dans la salle BO A RC 02 (INSA Rouen Normandie). Cette thèse, réalisée à l'Institut National des Sciences Appliquées de Rouen Normandie au sein de l'équipe APP du LITIS, avec l'entreprise Actemium Paris Transport, s'intitule :

"Détection d'objets et prédiction du trafic routier à l'aide de l'apprentissage profond sur des images et des vidéos compressées de scènes routières."

La soutenance aura lieu devant le jury composé de :

Mr. Vincent FREMONT, Professeur, Centrale Nantes, LS2N, Rapporteur
Mr. David PICARD, Habilité à Diriger des Recherches, Ecoles des Ponts ParisTech, Rapporteur
Mme. Marianne CLAUSEL, Professeure, Institut Elie Cartan de Lorraine, IECL, Examinatrice
Mr. Franck DAVOINE, Habilité à Diriger des Recherches, Centre National de la Recherche Scientifique, CNRS, Examinateur
Mr. Clément CHATELAIN, Habilité à Dirigé des Recherches, INSA de Rouen Normandie, LITIS, Co-encadrant
Mr. Gilles GASSO, Professeur, INSA de Rouen Normandie, LITIS, Directeur de thèse

Ceux qui souhaitent assister à la soutenance en distanciel peuvent le faire via les identifiants Zoom suivants :

Participer à la réunion Zoom

ID de réunion : 948 5538 9584

!! Pour rappel, un pass sanitaire valide est nécessaire pour assiter à la soutenance 

Résumé

Cette thèse est une CIFRE réalisée avec Actemium Paris Transport, une société qui évolue dans le domaine des Systèmes de Transport Intelligents (STI) et, en particulier, fournit des solutions logicielles pour la surveillance des tunnels routiers. Dans cette thèse, nous nous proposons d'étudier l'utilisation de méthodes d'apprentissage profond sur des images/vidéos compressées, afin de réduire leurs besoins en ressources et de permettre un déploiement à grande échelle des solutions logicielles développées par Actemium. Plus spécifiquement, nous ciblons deux types de compressions (la compression d'images JPEG et la compression vidéo MPEG4 part-2) pour deux applications spécifiques : la détection d'objets et l'estimation du débit de flux routiers.

Dans un premier temps, nous nous concentrons sur la détection d'objets dans les images compressées JPEG. En utilisant des images compressées au format JPEG comme entrées, nous développons des architectures d'apprentissage profond de détection d'objets et démontrons une accélération de la vitesse de prédiction d'un facteur 1,7 tout en ne réduisant la performance de détection que de 5,5%. De plus, nous démontrons empiriquement que seule une partie des informations compressées, la composante de luminance, est nécessaire pour atteindre la précision des méthodes utilisant l'ensemble des informations contenues dans les images.

Nous abordons ensuite le problème de l'estimation du débit routier (nombre de véhicules/unité de temps) à partir de flux vidéo compressés MPEG4 part-2 provenant de caméras de surveillance de tunnels routiers. Nous proposons plusieurs architectures d'apprentissage profond de type end-to-end qui utilisent cette représentation comme entrée. En utilisant ces architectures, nous démontrons que la prédiction du débit routier à partir de flux vidéo compressés MPEG4 part-2 est possible tout en atteignant une meilleure précision par rapport à un modèle plus classique, basé sur les vidéos RGB, et permet, de plus, d'accélérer de façon impressionnante l'étape de prédiction (x3200). Enfin, les données d'entraînement pouvant être difficiles à obtenir en raison de contraintes industrielles, nous étudions la possibilité d'utiliser des méthodes d'adaptation de domaine pour transférer les modèles appris d'une caméra à une autre et nous fournissons une analyse approfondie des contraintes qui peuvent entraver un tel transfert.

[-------------]

The thesis defense by Benjamin Deguerre which will take place on Thursday, November 25 at 3 pm in the BO A RC 02 room (INSA Rouen Normandie). This thesis CIFRE, carried out at the Institut National des Sciences Appliquées de Rouen Normandie within the APP team of the LITIS, in partnership with the company Actemium Paris Transport, is entitled:

"Object detection and traffic prediction using Deep Learning on compressed road images and videos"

The defense will take place in front of the jury composed of:

Mr. Vincent FREMONT, Professeur, Centrale Nantes, LS2N, Referee
Mr. David PICARD, Habilité à Diriger des Recherches, Ecoles des Ponts ParisTech, Referee
Mme. Marianne CLAUSEL, Professeure, Institut Elie Cartan de Lorraine, IECL, Examiner
Mr. Franck DAVOINE, Habilité à Diriger des Recherches, Centre National de la Recherche Scientifique, CNRS, Examiner
Mr. Clément CHATELAIN, Habilité à Dirigé des Recherches, INSA de Rouen Normandie, LITIS, Supervisor
Mr. Gilles GASSO, Professeur, INSA de Rouen Normandie, LITIS, Director

Those who wish to attend the defense remotely are invited to do it via the following Zoom identifiers:

Join Zoom meeting

Meeting ID: 948 5538 9584

!! Please note that a valid "pass sanitaire" is required to assist to the defense.

Summary

The PhD thesis is a CIFRE carried out with Actemium Paris Transport, a company that operates in the field of Intelligent Transport Systems (ITS) and, in particular, provides with solutions for the surveillance of road tunnels. In the thesis, we address the learning of efficient deep learning models that directly process compressed images/videos to lower the computation resource requirements and to allow for large scale deployment of the solutions. More specifically, we target two types of compression, JPEG image compression and MPEG4 part-2 video compression, for two specific applications: object detection and traffic flow rate estimation.

The first contribution focuses on object detection in JPEG compressed images. Using JPEG compressed images as inputs, we investigate deep learning architectures for object detection and demonstrate a x1.7 speed up at detection time, while only reducing the detection performance by 5.5%. Moreover, we empirically demonstrate that only part of the compressed information, namely the luminance component, is required to match the accuracy of the full input methods.

Our second contribution addresses the problem of estimating the flow rate (number of vehicles/unit of time) from MPEG4 part-2 compressed video streams issued from road surveillance cameras. We propose multiple end-to-end deep learning architectures using this coarse pixel flow representation as input. Using these models, we demonstrate that predicting the flow rate directly from MPEG4 part-2 compressed video streams can be achieved, while reaching improved accuracy in comparison with a more classical RGB-based model. We also show an impressive speed up of x3200. Furthermore, as training data may be scarce due to practical constraints, we explore domain adaptation to transfer learned models from one camera to another and provide with a thorough analysis of the constraints that may impede such transfer.