Soutenance de thèse de Miriam BENBALLA, vendredi 18 novembre 2022 à 10h, salle BO ARC02 INSA Rouen Normandie

Date :

...

Miriam Benballa soutiendra sa thèse le vendredi 18 novembre à 10h dans la salle BO.A.RC.02, dans le bâtiment Bougainville à l'INSA Rouen Normandie. Cette thèse s'intitule "Analyse de sentiments sur Twitter dans un contexte faiblement supervisé". Cette thèse a été réalisée au sein de l'équipe MIND et avec l'entreprise Saagie.

La soutenance aura lieu devant le jury composé de :
Alexandre PAUCHET, Maître de conférence HDR, LITIS, INSA Rouen Normandie, Directeur de thèse,
Simon BERNARD, Maître de conférence, LITIS, Université de Rouen Normandie, Encadrant,
Romain PICOT-CLÉMENTE, Head of AI, Saagie, Encadrant en entreprise,
Vincent CLAVEAU, Chargé de Recherche, CNRS, IRISA, Rapporteur,
Patrice BELLOT, Professeur, LIS, Aix Marseille Université, Rapporteur,
Thierry CHARNOIS, Professeur, LIPN, Université Sorbonne Paris Nord, Examinateur,
Chloé CLAVEL, Professeur, Telecom-Paris, Examinatrice.

Résumé de la thèse :
Les réseaux sociaux tels que Twitter occupent une place de plus en plus importante dans la vie des gens. Les tweets constituent une ressource quasi inépuisable de données à analyser. Cependant, les modèles actuellement à l'état de l'art, les modèles Transformer, sont très gourmands en mémoire, en temps et en puissance de calcul. La quantité de GPU nécessaire à leur entraînement est très difficilement disponible. De plus, Twitter ayant un vocabulaire spécifique, avec des hashtags, des mentions, des URL, des emojis, ou encore beaucoup de sarcasme, les modèles utilisés doivent être adaptés au vocabulaire particulier utilisé sur ce réseau social.

Dans cette thèse, nous proposons donc dans un premier temps, un ensemble de bonnes pratiques pour l'apprentissage de modèles Transformer, connus pour être très gourmands en données, mémoire, et puissance de calcul, tout en ayant accès à une quantité de ressources limitée. Dans un second temps, nous étudions comment l'ajout des informations d'emojis et de sarcasme peut impacter les performances du modèle. Si les emojis permettent d'améliorer la classification de sentiments, l'ajout d'informations de sarcasme freine cette amélioration. Deux hypothèses ont été émises : le sarcasme entre en contradiction avec les autres modèles, ou la méthode de combinaison utilisée ne permet pas de bien intégrer le sarcasme. Enfin, nous présentons le projet SAPHiRS dans lequel s'inscrit cette thèse. Son objectif est la détection de radicalisation, d'influenceurs et de communautés sur Twitter.