2018-00562 – VAlorisation des DOnnées pour la Recherche d’Emploi

Postuler à l'offre

2018-00562 – VAlorisation des DOnnées pour la Recherche d’Emploi

  • A propos du centre ou de la direction fonctionnelle
  • Contexte et atouts du poste
  • Mission confiée
  • Principales activités
  • Compétences
  • Rémunération
  • Informations générales

Postuler à l'offre

Date limite de candidature
Date limite pour postuler : 15.09.18

Partager

twlkfbml
Contenu
Corps de texte

2018-00562 – VAlorisation des DOnnées pour la Recherche d’Emploi

Niveau de diplôme exigé : Bac + 5 ou équivalent

Fonction : Doctorant
 

Ancre
A propos du centre ou de la direction fonctionnelle
Corps de texte

La thèse sera effectuée à cheval sur deux centres, le CREST et le LRI. Elle sera co-dirigée avec un superviseur dans chacun des centres.

Le CREST (Centre de Recherche en Economie et Statistiques) est un centre de recherche commun regroupant les professeurs de l'ENSAE, de l'ENSAI et du Département d'Economie de l'Ecole Polytechnique. C’est une Unité Mixte de Recherche du CNRS. Le CREST a une perspective interdisciplinaire reflétée dans ses quatre sous-domaines: économie, statistique, finance-assurance et sociologie.
 
La culture commune du CREST se caractérise par un fort attachement aux méthodes quantitatives, aux données, à la modélisation mathématique et au mouvement continu de va-et-vient entre modèles théoriques et preuves empiriques pour analyser des problèmes économiques et sociétaux concrets.
 
En plus de la production scientifique de ses membres, un important enjeu pour le Centre est l'essaimage de sa culture scientifique et de son expertise par la formation doctorale. Le centre participe donc activement à plusieurs masters, notamment le Master Paris-Saclay en Economie et son programme de doctorat associé, ainsi que le Master Data Sciences.

  • Organisme : ENSAE, Bruno Crépon (Bruno.Crepon@ensae.fr)
  • Laboratoire : CREST
  • Equipe : Economie, Econometrie, Apprentissage statistique
  • Chercheurs impliqués : B. Crépon, C. Gaillac, M. Cuturi

Le Laboratoire de Recherche en Informatique (LRI) est une unité mixte de recherche (UMR8623) de l'Université Paris-Sud et du CNRS. Avec le LIMSI-CNRS, il fait partie du Département d'Informatique de l'Université Paris-Sud et, pour le CNRS, il est rattaché à l'INS2I (sections 06 principale et 07 secondaire) et dépend de la Délégation Île-de-France Sud de Gif-sur-Yvette.

Créé il y a plus de 35 ans, il accueille plus de 250 personnes dont environ 133 permanents et 90 doctorants, organisés en neuf équipes de recherche, une équipe administrative et une équipe technique. Quatre des équipes de recherche (dont l’équipe AO qui accueillera le doctorant) sont tout ou partie communes avec Inria Saclay - Île-de-France qui est ainsi le partenaire privilégié du laboratoire. Le laboratoire est localisé sur le plateau du Moulon dans ses nouveaux locaux connexes Ada Lovelace du PCRI (avec Inria) depuis juin 2011 et Claude Shannon de Digiteo (avec des équipes d'Inria, de l'IEF et du CEA) depuis début 2013.

Les thèmes de recherche du laboratoire couvrent un large spectre de l'informatique à dominante logicielle et incluent à la fois des aspects fondamentaux et des aspects appliqués : algorithmique, combinatoire, graphes, optimisation discrète et continue, programmation, génie logiciel, vérification et preuves,  parallélisme, calcul à haute performance, grilles, architecture et compilation, réseaux, bases de données, représentation et traitement des connaissances, apprentissage, fouille de données, bioinformatique, interaction homme-machine, etc. Cette diversité est l'une des forces du laboratoire car elle favorise les recherches aux frontières, là où le potentiel d'innovation est le plus grand.

  • Organisme : Université Paris-Sud Michele Sebag (Michele.Sebag@lri.fr)
  • Laboratoire : LRI, CNRS UMR 8623, INRIA
  • Equipe : TAO, Apprentissage et Optimisation
  • Chercheurs impliqués : M. Sebag, P. Caillou, P. Tubaro
Ancre
Contexte et atouts du poste
Corps de texte

Environment

Le sujet de thèse proposé fait partie d’un programme ayant été sélectionné par DataIA suite à l’appel d’offre de Décembre 2017.
L’objectif du projet est la mise au point et le test d’outils permettant d’améliorer les appariements sur le marché du travail. Il s’agit d’un projet mené en étroite collaboration avec Pôle Emploi et qui reposera sur l’utilisation des données très riche auxquelles Pôle Emploi a accès tant sur les demandeurs d’emploi que sur les entreprises. Une doctorante en contrat CIFRE à Pole Emploi participe également au projet. Outre l’aspect méthodologique important qui constitue le cœur du sujet proposé, le projet global a en effet une dimension opérationnelle importante et prévoit de mettre en place des outils récemment proposés dans la littérature d’apprentissage automatique (word embeddings, transport optimal, deep learning) et d’en tester rigoureusement l’efficacité et l’impact sur l’équilibre du marché du travail.

Ancre
Mission confiée
Corps de texte

Sujet de la thèse : au sein du projet global sélectionné par DataIA, le sujet de la thèse proposée est la mise au point des outils qui permettront d’effectuer les recommandations. Un aspect important du projet est de pouvoir faire des recommandations d’entreprises aux demandeurs d’emploi et symétriquement de demandeurs d’emploi aux entreprises.     

Etat de l’art : deux approches principales, susceptibles d'aider la recherche d'emploi ou d'employé, ont été considérées en science des données. Une première approche est celle de la recherche d'information : étant donné une requête (offre d'emploi) quel est le document (CV) répondant le mieux à la requête. Les solutions proposées (Faliagka et al., 2012; Singh et al., 2010) reposent sur le  traitement du langage naturel, et se heurtent entre autres à la nature différente des langages des documents (chercheurs d’emploi) et des requêtes (offres d’emploi). Une solution passe par la définition de compétences standards ou d'ontologies, constituant idéalement un langage commun entre offres et CVs. Cependant, cette liste de compétences ne répond que partiellement au problème posé, pour trois raisons : i) la rapidité d'évolution des métiers ; ii) le bruit de description des demandeurs et des recruteurs ; iii) la nécessité de prendre en compte d'autres informations semi-structurées (notamment géographiques) dont l'importance varie en fonction des métiers et des personnes.

Une seconde approche est celle du filtrage collaboratif, dont l'exemple le plus connu est celui de la plateforme Netflix. Le filtrage collaboratif classique ne dispose que des traces d'usages des utilisateurs, indiquant "qui aime quoi". Les traces d'usage sont exploitées pour inférer une description latente des utilisateurs et des items. La difficulté essentielle du problème de l'emploi en termes collaboratifs est qu'il s'agit de "démarrage à froid": les utilisateurs et les items considérés sont nouveaux (en particulier, une offre d'emploi a une durée de vie limitée). Le challenge international de la communauté des Systèmes de Recommendation, RecSys 2017, était consacré à la recommandation d'offres d'emploi à des DE à partir de données recueillies sur la plateforme Xing.com (1.5 millions d'utilisateurs, 1.3 millions d'offres). Parmi les approches développées en filtrage collaboratif, citons (Volkovs et al., 2017) et les travaux conduits au LRI (Schmitt et al., 2016; Schmitt et al., 2017).

Le but de la thèse est de créer, à partir des données que nous aurons pu regrouper et formater, un système de recommandation capable d'identifier, lister et ordonner des offres d'emplois susceptibles de mener à l'embauche d'un DE, et symétriquement les CVs pertinents pour une offre d'emploi donnée ou une entreprise donnée.

La thèse s’attachera dans un premier temps à appliquer des modèles de recommandation simples, de type co-embedding filtering, reposant sur des historiques d'appariement, et des modèles de proximité entre DE, offres et entreprises. Afin d'utiliser ces techniques intuitives (si un DE partage beaucoup de caractéristiques avec un autre DE, et que ce dernier a été embauché par une entreprise pour une certaine offre, quelle autre entreprise, ou autre offre, similaire à cette dernière, pourrait lui être proposée ? )

Dans ce contexte, il sera capital d'apprendre des « plongements » capables d'encoder efficacement ces proximités de compétence. Ils seront dans un premier temps appris en utilisant essentiellement les données très riches dont dispose Pôle Emploi sur les demandeurs d’emploi et les entreprises, et tout spécialement des données textuelles contenues dans les CV et les textes des offres représentées sous la forme de vecteurs via des « word embeddings ».  Ceci permettra d’apprendre alors, à la fois pour les DE, les offres et les entreprises, une transformation linéaire (voire neuronale multi-couches) corrélée avec des statistiques de co-occurrence (les appariements observés entre entreprises et demandeurs d’emploi).

Keywords : word embedding, collaborative filtering, deep learning, marché de l’emploi
 

Ancre
Principales activités
Corps de texte

L’activité principale au sein du projet global est la mise au point des algorithmes de prédiction.  

Ancre
Compétences
Corps de texte

Nous recherchons des candidats fortement motivés par une recherche stimulante et une application aux données du monde réel. Le candidat doit avoir de solides antécédents en mathématiques et en probabilités / statistiques. Des compétences de programmation, de préférence en Python ou R (ou autre langage scripté) sont souhaitées.

Ancre
Rémunération
Corps de texte

1700 euros net par mois

Ancre
Informations générales
Corps de texte

Thème/Domaine : apprentissage et méthodes statistiques, Statistiques (Big data) (BAP E)


Ville : Plateau de Saclay (91)

Date de prise de fonction souhaitée : 2018-10-01


Durée de contrat : 3 ans

Date limite pour postuler : 2018-09-15. Nous encourageons les candidats intéressés à nous contacter le plus vite possible.

Pour postuler, remplissez le formulaire ci-dessous ou envoyez votre candidature à crepon@ensae.fr et michele.sebag@lri.fr

Postuler
Civilité
Reconnaissance travailleur handicapé
Formats autorisés
Formats autorisés
Formats autorisés
2 + 6 =
Trouvez la solution de ce problème mathématique simple et saisissez le résultat. Par exemple, pour 1 + 3, saisissez 4.