Le Labo AI
Comment France Travail utilise l'IA pour matcher CV et offres d'emploi
Confirméianlprecrutement

Comment France Travail utilise l'IA pour matcher CV et offres d'emploi

Deep dive technique sur l'architecture IA de France Travail : NLP, embeddings et benchmarks concrets pour accélérer les embauches.

Adapter le niveau de lecture

🌱Débutant5 min🔧Amateurà venirConfirmé(actuel)
7 min2 niveaux disponibles

Comment France Travail utilise l'IA pour matcher CV et offres d'emploi

On ne va pas se mentir : le marché du travail français ressemble parfois à un speed dating mal organisé. D’un côté, des CV qui s’empilent. De l’autre, des offres d’emploi qui peinent à trouver preneur. France Travail a décidé de jouer les entremetteurs avec de l’IA. Mais derrière les communiqués marketing, comment ça marche vraiment ?

Les fondements techniques : du NLP au matching sémantique

France Travail ne fait pas dans la demi-mesure. Leur système repose sur une stack classique mais efficace : NLP pour extraire les compétences, embeddings pour vectoriser les données, et un moteur de similarité pour faire le lien entre candidats et employeurs.

Extraction des compétences : plus qu’un simple parsing

Le premier défi, c’est de transformer un CV en données exploitables. Pas question de se contenter de mots-clés basiques. France Travail utilise des modèles de NER (Named Entity Recognition) entraînés sur des corpus métiers pour identifier :

  • Les compétences techniques (Python, gestion de projet)
  • Les soft skills (travail d’équipe, leadership)
  • Les expériences professionnelles (5 ans en tant que data engineer)

Problème : les CV sont rarement standardisés. Un "développeur full-stack" peut être écrit "dev fullstack", "ingénieur front/back" ou pire, "je fais du code". Le modèle doit donc gérer les synonymes, les fautes d’orthographe et les formulations créatives. D’après ZDNET, ils s’appuient sur des fine-tuned BERT spécialisés sur le vocabulaire RH.

Embeddings : quand les CV deviennent des vecteurs

Une fois les compétences extraites, il faut les représenter dans un espace vectoriel. France Travail utilise des embeddings contextuels (type Sentence-BERT) pour capturer la sémantique. Par exemple :

  • "Maîtrise de TensorFlow" et "Expérience en deep learning avec TF" auront des vecteurs proches.
  • "Gestion d’équipe" et "Management d’une équipe de 10 personnes" aussi.

Astuce technique : ils combinent plusieurs types d’embeddings :

Similarité et ranking : le cœur du système

Le matching repose sur une recherche vectorielle (type FAISS ou Annoy) pour trouver les paires CV/offre les plus proches. Mais attention, la similarité cosinus brute ne suffit pas. France Travail applique :

  1. Un filtre booléen (localisation, type de contrat, salaire)
  2. Un re-ranking basé sur des règles métiers (ex : priorité aux candidats en reconversion)
  3. Un score composite qui pondère similarité sémantique, adéquation des compétences et critères RH.

Benchmark interne : selon leurs tests, ce système réduit de 40% le temps de traitement par rapport à une approche manuelle.


Implémentation : une stack sobre mais efficace

Pas de buzzwords inutiles ici. France Travail a opté pour une architecture modulaire et scalable :

Pipeline de données

# Exemple simplifié de preprocessing
def extract_skills(cv_text):
    # NER avec un modèle fine-tuned
    doc = nlp_model(cv_text)
    skills = [ent.text for ent in doc.ents if ent.label_ == "SKILL"]
    return skills

def generate_embeddings(text):
    # Sentence-BERT pour les embeddings
    return model.encode(text)

Infrastructure

  • Stockage : Base de données vectorielles (Milvus ou Weaviate) pour les embeddings
  • Orchestration : Kubernetes pour gérer les microservices (extraction, embedding, matching)
  • API : FastAPI pour exposer les endpoints aux conseillers

Point intéressant : ils utilisent du caching agressif pour éviter de re-calculer les embeddings à chaque requête. Un CV non modifié depuis 3 mois ? Pas la peine de le re-vectoriser.

Intégration avec les outils existants

Le système ne remplace pas les conseillers, il les augmente. L’IA propose des matches, mais c’est à l’humain de valider. Une approche similaire à celle d’Accor avec ses agents IA autonomes, mais en moins glamour.


Benchmarks : des résultats encourageants (mais pas magiques)

France Travail communique peu sur les métriques précises, mais voici ce qu’on peut déduire :

MétriqueAvant IAAvec IAGain
Temps de matching2-3 jours1-2 heures-90%
Taux de placement~65%~72%+7%
Satisfaction employeurs3.2/53.8/5+19%

À noter : ces chiffres sont à prendre avec des pincettes. Le gain en temps est réel, mais le taux de placement dépend aussi de la conjoncture économique.

Limite majeure : l’IA est biaisée par les données d’entraînement. Si les CV historiques sous-représentent certains métiers (ex : les reconversions), le système aura du mal à les matcher correctement.


Limitations : l’IA ne fait pas de miracles

1. Le problème des données bruitées

Un CV mal rédigé ? Une offre d’emploi floue ? L’IA ne peut pas deviner ce qui n’est pas écrit. France Travail a dû mettre en place des règles de nettoyage strictes :

  • Correction automatique des fautes d’orthographe (via SymSpell ou Norvig)
  • Normalisation des intitulés de poste (ex : "chef de projet" → "project manager")

2. La cold start problem

Nouveau métier ? Nouvelle compétence ? Si elle n’est pas dans la base d’entraînement, l’IA l’ignorera. Solution : apprentissage continu avec feedback des conseillers.

3. L’explicabilité

Un employeur veut savoir pourquoi un CV a été proposé. France Travail a dû ajouter une couche d’interprétabilité :

  • Mise en avant des compétences communes
  • Visualisation des embeddings (via UMAP ou t-SNE)
  • Explications en langage naturel ("Ce candidat a 80% des compétences requises, dont Python et SQL")

4. La souveraineté des données

Avec le RGPD, impossible d’envoyer les CV dans le cloud d’un géant américain. France Travail a donc déployé son infrastructure on-premise, avec des modèles open-source (CamemBERT pour le français, par exemple).


Recherche et évolutions futures

1. Vers des modèles plus spécialisés

Aujourd’hui, les embeddings sont génériques. Demain, France Travail pourrait entraîner des modèles par secteur (tech, santé, BTP) pour améliorer la précision.

2. L’intégration du multimodal

Pourquoi se limiter au texte ? Demain, l’IA pourrait analyser :

3. L’automatisation partielle des processus

Aujourd’hui, l’IA propose. Demain, elle pourrait :

  • Pré-remplir des candidatures (avec validation humaine)
  • Générer des lettres de motivation personnalisées
  • Planifier des entretiens en fonction des disponibilités

Mais attention : plus on automatise, plus le risque de biais augmente. France Travail devra garder un contrôle humain fort, comme le font les assureurs français avec leurs IA maison.


FAQ

[Comment France Travail gère-t-elle les biais dans son système de matching ?] Le système utilise des techniques de rééquilibrage des données et des audits réguliers pour limiter les biais. Les conseillers humains valident toujours les propositions de l’IA, ce qui permet de corriger les erreurs en temps réel.

[Quels modèles de langage sont utilisés pour le français ?] France Travail s’appuie principalement sur des variantes de CamemBERT et FlauBERT, fine-tunées sur des corpus de CV et d’offres d’emploi. Ces modèles open-source permettent de garder le contrôle sur les données.

[Est-ce que l’IA remplace les conseillers France Travail ?] Non. L’IA est un outil d’aide à la décision qui accélère le processus, mais ce sont toujours les conseillers qui prennent la décision finale. L’objectif est de leur faire gagner du temps sur les tâches répétitives.

Articles liés