Post-doc en Apprentissage pour l’analyse d’opinion

Les équipes MIND (http://www.litislab.fr/equipe/mind/) et Apprentissage (http://www.litislab.fr/equipe/app/) du laboratoire LITIS à Rouen recrutent un post-doctorant pour 18 mois dans la cadre du projet SAPhIRS (projet de type RAPID financé par la DGA et la DGE).

Mots clefs : machine learning, deep learning, réseaux récurrents

Descriptif du projet et des missions du post-doctorant :

La quantité de données publiées sur Internet s’est multipliée ces dernières années, notamment grâce à l’avènement des réseaux sociaux. Ces nouveaux moyens de communication sont régulièrement utilisés pour émettre des opinions sur des évènements publics et politiques ou pour diffuser des thèses sur des sujets parfois sensibles (appel à la haine, discours radicaux, hooliganisme, racisme et nationalisme, etc.). Le projet SAPhIRS a pour objectif d’étudier les mécanismes de propagation d’opinion au sein des réseaux sociaux : identifier les mécanismes de diffusion d’information et d’opinion sur des sujets divers allant du tourisme à la politique, repérer des leaders d’influence, etc. En particulier dans le domaine de la sécurité, nous nous intéresserons sur Twitter à la détection et à l’analyse de messages appelant à la haine ou à la violence, du suivi de leur propagation et à la détection d’acteurs d’influence.

Dans le cadre de ce projet, nous proposons un post-doctorat de 18 mois en apprentissage pour l’analyse d’opinions, de sentiment et de détection de changements d’opinion dans des Tweets. Pour cela nous souhaitons utiliser les méthodes à l’état de l’art en traitement automatique des langues basées sur les réseaux de neurones profond (deep learning), et notamment les réseaux de neurones récurrents avec mémoire interne tels que les LSTM ou les GRU.

Il s’agira :

D’annoter automatiquement des tweets selon une opinion : problème de classification supervisée ;
D’identifier automatiquement des messages comportant l’expression d’idées radicales, en anglais, en français et en alphabet de tchat arabe (translitération de l’arabe en alphabet latin, nommé aussi arabizi ou arabish) : problème d’apprentissage supervisé sur des classes déséquilibrées et éventuellement apprentissage faiblement supervisé ;
De détecter des changement d’opinion dans les séquences de Tweets d’utilisateurs : détection d’anomalies et de ruptures dans une série temporelle.

La difficulté résidera en particulier dans l’encodage numérique des données d’entrée (textes courts issus de Twitter, en Français et en Arabizi) pour lesquels les modèles de langues restent à définir, et dans la conception et l’apprentissage des modèles récurrents adaptés à ces trois tâches.

Profils :
Les candidat(e)s devront être titulaire d’un doctorat en apprentissage avec si possible une expérience en TAL et/ou en Deep learning. La connaissance des modèles récurrents et de l’Arabizi seraient également des atouts.

Conditions :
Le contrat sera de 18 mois pouvant débuter dès à présent, avec un salaire d’environ 3500 € brut mensuel chargé. La personne recrutée travaillera dans les locaux du LITIS à l’INSA Rouen Normandie sur le campus du Madrillet à Saint-Etienne du Rouvray (Seine-Maritime).

Candidature : CV, lettre de motivation, lettres de recommandation.

Contact : alexandre.pauchet@insa-rouen.fr

Equipe : LITIS