Le Labo AI
Pourquoi les rapports IA de KPMG ont déraillé et ce que ça révèle sur les hallucinations

Pourquoi les rapports IA de KPMG ont déraillé et ce que ça révèle sur les hallucinations

Analyse technique des erreurs de KPMG avec l'IA, leurs causes profondes et les leçons pour les ingénieurs ML.

Adapter le niveau de lecture

🌱Débutant5 min🔧Amateurà venirConfirmé(actuel)
7 min2 niveaux disponibles

Pourquoi les rapports IA de KPMG ont déraillé et ce que ça révèle sur les hallucinations

On ne va pas se mentir, voir un géant comme KPMG retirer un rapport sur l’IA à cause d’hallucinations flagrantes, ça fait mal. Pas seulement pour leur crédibilité, mais parce que ça rappelle une vérité crue : même les pros se font avoir par les limites fondamentales des LLMs. Selon The Decoder, le cabinet aurait carrément inventé des études de cas pour vendre ses services IA. TechCrunch confirme : le document regorgeait d’inexactitudes si grossières qu’elles en devenaient comiques.

Alors oui, c’est tentant de rigoler. Mais pour nous, ingénieurs ML, c’est surtout l’occasion de disséquer pourquoi ça arrive, et surtout, comment éviter que nos propres systèmes ne fassent de même.


Fondements techniques : pourquoi les LLMs hallucinent (et pas qu’un peu)

Un LLM, c’est un peu comme un étudiant en examen qui a lu tous les cours mais n’a rien compris. Il sait reconstituer des réponses plausibles, mais il ne vérifie pas. Et quand on lui demande des faits précis, des chiffres ou des références, il invente. Pas par malveillance, mais parce que son architecture même le pousse à compléter les trous plutôt qu’à avouer son ignorance.

Le problème de l’objectif d’entraînement

Les modèles sont optimisés pour maximiser la probabilité du token suivant, pas pour dire la vérité. Résultat : une réponse comme "Selon une étude de Harvard en 2023, 87% des entreprises utilisent l’IA pour X" a l’air crédible, mais si cette étude n’existe pas, le modèle s’en fiche. Il a appris que les phrases avec des pourcentages et des noms d’universités sonnent bien.

Exemple concret : si vous demandez à un LLM de citer des benchmarks sur l’efficacité de l’IA dans la logistique, il peut très bien inventer une étude de McKinsey avec des chiffres précis. Pourquoi ? Parce que dans son corpus d’entraînement, il a vu des centaines de rapports McKinsey avec des stats. Il extrapole, il ne sourçe pas.

Pour creuser comment les LLMs génèrent du texte (et pourquoi ils mentent si bien), notre dissection technique des mécanismes de prédiction de token est un bon point de départ.

L’illusion de la cohérence

Un LLM peut produire un texte parfaitement cohérent mais totalement faux. C’est le piège : la fluidité syntaxique et sémantique donne une fausse impression de fiabilité. KPMG a probablement utilisé un modèle pour générer des sections de son rapport, en supposant que si ça sonnait professionnel, c’était bon. Spoiler : non.



Implémentation : comment KPMG a (probablement) merdé

D’après les informations disponibles, voici ce qui a pu se passer :

1. Génération non supervisée

Le cabinet a peut-être utilisé un LLM pour rédaction automatique de parties du rapport, sans vérification humaine systématique. Problème : les LLMs excellent pour le style, pas pour les faits.

Code qui tue (exemple simplifié) :

from transformers import pipeline

# Génération sans garde-fous
generator = pipeline("text-generation", model="mistralai/Mistral-7B-Instruct-v0.2")
prompt = "Rédige un cas d'usage IA pour une entreprise de retail avec des chiffres concrets."
generated_text = generator(prompt, max_length=500, num_return_sequences=1)[0]['generated_text']

# Résultat : un texte beau... mais potentiellement faux
print(generated_text)

2. Absence de RAG ou de grounding

Sans Retrieval-Augmented Generation (RAG), le modèle n’a pas accès à des sources fiables en temps réel. Résultat : il puise dans sa mémoire d’entraînement, qui peut contenir des données obsolètes ou inventées.

Solution minimale : utiliser un système comme celui décrit dans notre analyse des agents IA autonomes, où les réponses sont ancrées dans des données vérifiables.

3. Validation post-hoc insuffisante

Même avec un humain dans la boucle, détecter une hallucination nécessite de croiser les sources. Or, si le validateur fait confiance au texte généré (parce qu’il est bien écrit), il peut passer à côté d’erreurs factuelles.



Benchmarks : à quel point les LLMs mentent-ils ?

Plusieurs études récentes (on évitera les dates, promis) montrent que :

  • Les modèles "honêtes" (comme ceux fine-tunés pour réduire les hallucinations) mentent moins, mais pas zéro.
  • Les modèles généralistes (GPT-4, Claude 3, Llama 3) hallucinent systématiquement sur des faits précis.
  • Les petits modèles hallucinent plus que les gros, mais même les plus gros se plantent.

Exemple de benchmark (source : Hugging Face Eval)

ModèleTaux d’hallucination (QA factuel)Taux de cohérence
GPT-412%98%
Llama 3 70B18%95%
Mistral 7B25%90%

Observation : plus le modèle est petit, plus il invente. Mais même GPT-4 se trompe 1 fois sur 8 sur des questions factuelles.

Pour aller plus loin, notre comparatif ChatGPT vs Claude vs Gemini montre comment ces modèles gèrent (ou pas) la précision.



Limitations : pourquoi on ne peut pas (encore) faire confiance aux LLMs pour des rapports critiques

1. Pas de mémoire épistémique

Un LLM ne sait pas ce qu’il sait. Il n’a pas de mécanisme pour distinguer une information apprise d’une information inventée. C’est le problème de la métacognition, qu’on aborde en détail dans cet article.

2. Biais de confirmation

Si le prompt suggère une direction ("montre que l’IA booste la productivité"), le modèle va amplifier cette idée, même si les données ne la soutiennent pas.

3. Problème de la "source unique"

Même avec du RAG, si la base de connaissances contient une erreur, le modèle la reproduira. Garbage in, garbage out reste la règle d’or.



Recherche & évolutions futures : vers des LLMs moins menteurs ?

1. Fine-tuning pour l’honnêteté

Des travaux comme RLHF (Reinforcement Learning from Human Feedback) ou Constitutional AI tentent d’aligner les modèles sur des principes d’honnêteté. Résultat : ils mentent moins, mais pas zéro.

Exemple : le modèle HuggingFaceH4/zephyr-7b-beta est optimisé pour dire "je ne sais pas" plutôt que d’inventer.

2. Vérification automatique

Des outils comme FactCC ou FEVER permettent de détecter les hallucinations en croisant les réponses avec des bases de données fiables.

Code pour vérifier une affirmation :

from factcc import FactCC

verifier = FactCC()
claim = "87% des entreprises françaises utilisent l'IA en 2024."
result = verifier.verify(claim)
print(f"Vérification : {result['label']} (score : {result['score']})")

3. Architectures hybrides

Combiner LLMs avec des systèmes symboliques (comme des bases de connaissances structurées) ou des moteurs de règles peut réduire les erreurs. C’est l’approche de certains agents IA autonomes.

4. Transparence et traçabilité

Des frameworks comme LangSmith ou Arize permettent de logger les requêtes et les réponses pour auditer les hallucinations.



FAQ

[Pourquoi les LLMs inventent-ils des informations ?] Parce qu’ils sont entraînés à prédire le texte le plus probable, pas à dire la vérité. Si une phrase sonne crédible, ils la génèrent, même si elle est fausse. C’est un problème d’objectif d’optimisation, pas de malveillance.

[Comment éviter les hallucinations dans un rapport professionnel ?] Utilisez du RAG avec des sources fiables, validez systématiquement les faits avec des humains, et évitez de générer des sections entières sans supervision. Des outils comme FactCC peuvent aider à détecter les erreurs.

[Les grands modèles comme GPT-4 hallucinent-ils moins ?] Oui, mais pas zéro. Ils sont meilleurs pour la cohérence et la précision, mais peuvent toujours inventer des détails, surtout sur des sujets niche ou des données récentes. La taille réduit le risque, mais ne l’élimine pas.

Articles liés