Pourquoi les LLMs raisonnent comme des ados bourrés de caféine (et pas comme Einstein)
Les modèles d'IA actuels échouent sur le raisonnement logique basique. Décryptage des architectures, benchmarks et pistes pour dépasser le "parrot math".
Adapter le niveau de lecture
Pourquoi les LLMs raisonnent comme des ados bourrés de caféine (et pas comme Einstein)
On nous vend des "esprits numériques" capables de révolutionner la médecine, le droit ou la recherche. Sauf que quand on gratte un peu, nos chers LLMs ont du mal à compter jusqu'à 10 sans se tromper, confondent cause et conséquence, et inventent des théories scientifiques avec l'aisance d'un étudiant en philo après trois expressos.
Le problème ? Le raisonnement logique reste leur talon d'Achille. Et ce n'est pas faute d'avoir empilé des milliards de paramètres ou avalé tout Wikipedia.
Fondements techniques : quand la prédiction de tokens rencontre le mur du sens
1. L'illusion du "raisonnement émergent"
Les LLMs actuels fonctionnent sur un principe simple : prédire le prochain mot dans une séquence. C'est comme demander à quelqu'un de compléter une phrase à trou en se basant uniquement sur les mots précédents, sans comprendre le contexte global.
Prenez ce benchmark classique (issu des travaux de ARR) :
Q: "Si tous les Bloops sont des Razzies et tous les Razzies sont des Lazzies, alors tous les Bloops sont forcément..."
A (LLM) : "...des Lazzies. [confiance : 99%]"
A (correcte) : "...des Lazzies." *(oui, mais pour les mauvaises raisons)*
Le modèle donne la bonne réponse, mais son mécanisme interne n'a aucune notion de logique syllogistique. Il a juste appris que dans 98% des cas, cette structure de phrase se termine par "Lazzies". Changez les mots pour des concepts abstraits, et tout s'effondre :
Q: "Si X implique Y et Y implique Z, alors X implique..."
A (LLM) : "...probablement Z, mais je ne suis pas sûr à 100% car cela dépend du contexte culturel et historique de X, Y et Z."
*(traduction : "j'ai aucune idée mais je vais noyer le poisson")*
Le vrai test ? Demandez à un LLM de résoudre un problème de logique propositionnelle avec des variables aléatoires. Spoiler : il inventera plutôt que d'avouer son ignorance, comme un élève qui recopie la réponse du voisin sans comprendre l'énoncé.
2. L'architecture en cause : transformers ≠ machines à raisonner
Les transformers (et leurs variantes) excellent pour :
- Capturer des patterns statistiques dans des données massives
- Générer du texte fluide grâce à l'attention multi-têtes
- Faire semblant de comprendre en recyclant des phrases vues à l'entraînement
Mais ils ne modélisent pas :
- La causalité (pourquoi A entraîne B)
- La consistance logique (si A et non-A sont tous deux probables)
- La hiérarchie des concepts (un chien est un animal → un animal n'est pas forcément un chien)
Exemple concret : Dans le benchmark LogiQA, même GPT-4 échoue sur 30% des questions de logique de base, là où un humain moyen en rate 5%. Pire : ses erreurs sont souvent confantes, avec des scores de "probabilité" > 90% pour des réponses fausses.
3. Le piège du "parrot math"
Les LLMs donnent l'illusion de faire des maths parce qu'ils ont ingurgité des millions d'équations. Mais :
- Ils ne calculent pas, ils reconnaissent des patterns.
- Ils ne vérifient pas, ils génèrent ce qui "sonne juste".
Testez ceci :
Q: "Calculez 12345 × 67890"
A (LLM) : "838 102 050" *(bonus : avec une explication détaillée... mais fausse)*
A (calculatrice) : "838 100 050"
Le modèle a reconnu la structure d'une multiplication longue, mais n'a pas effectué l'opération. C'est comme un perroquet qui récite une table de multiplication sans savoir compter.
Implémentation : ce qu'on essaie (sans grand succès)
1. Chain-of-Thought (CoT) : le sparadrap sur une jambe de bois
L'idée ? Forcer le modèle à décomposer son raisonnement en étapes intermédiaires.
En théorie :
Q: "Marie a 3 pommes. Elle en donne 1 à Paul. Combien lui en reste-t-il ?"
A (CoT) :
1. Marie commence avec 3 pommes.
2. Elle en donne 1 à Paul.
3. 3 - 1 = 2.
Réponse : 2 pommes.
En pratique :
Q: "Si un train quitte Paris à 100 km/h et un autre quitte Lyon à 120 km/h en direction de Paris, à quelle heure se croisent-ils ?"
A (CoT) :
1. Calculer la distance Paris-Lyon : environ 465 km.
2. Vitesse relative : 100 + 120 = 220 km/h.
3. Temps de rencontre : 465 / 220 ≈ 2,11 heures.
4. 10h + 2,11h = 12h06.
Réponse : Ils se croisent à 12h06.
*(Problème : le modèle a oublié de vérifier si les trains partent à la même heure. Spoiler : non.)*
Bilan : CoT améliore les résultats de 10-15% sur certains benchmarks, mais reste un trucage statistique, pas une vraie capacité de raisonnement.
2. Fine-tuning sur des données "logiques"
Certains (comme Anthropic avec Claude 3) tentent d'entraîner les modèles sur :
- Des bases de théorèmes mathématiques
- Des problèmes de logique formelle
- Des dialogues où l'on corrige explicitement les erreurs
Résultat :
- Amélioration sur les tâches très proches des données d'entraînement
- Echec catastrophique dès qu'on sort du cadre appris
Exemple : Un modèle fine-tuné sur des syllogismes classiques (type "Tous les A sont B") peut réussir 95% des cas... mais échoue sur :
"Certains X ne sont pas Y. Tous les Y sont Z. Donc certains X ne sont pas Z."
*(Un humain : "Logique !" / Le LLM : "Je ne suis pas sûr, cela dépend de la définition de X.")*
3. Hybridation avec des moteurs symboliques
L'approche la plus prometteuse (et la plus ignorée par le marketing) : combiner LLMs et systèmes à règles.
Comment ?
- Le LLM génère une hypothèse (ex: "La réponse est 42")
- Un moteur symbolique (type Prolog, Wolfram Alpha) vérifie la consistance logique
- Boucle de feedback : si le moteur détecte une incohérence, le LLM réviser sa réponse
Problème :
- Lent (le moteur symbolique est un goulot d'étranglement)
- Fragile (il faut définir à l'avance toutes les règles possibles)
- Peu scalable (bon pour des domaines étroits, pas pour le raisonnement général)
Exemple concret : Wolfram Alpha + ChatGPT donne de meilleurs résultats sur les maths... mais plante dès qu'il faut interpréter un énoncé ambigu.
Benchmarks : quand les métriques mentent
Les papiers de recherche adorent les benchmarks comme :
- MMLU (test de connaissances générales)
- HellaSwag (commonsense reasoning)
- ARC (raisonnement abstrait)
Problème : Ces tests mesurent la capacité à choisir la bonne réponse parmi des options, pas à construire un raisonnement valide.
1. Le casse-tête des "faux positifs"
Prenez ce problème (issu de BIG-Bench) :
"Un homme construit une maison rectangulaire. Chaque côté a une longueur différente. Est-ce possible ?"
- LLM (GPT-4) : "Non, par définition un rectangle a deux paires de côtés égaux."
- Réponse correcte : "Oui, si c'est un quadrilatère quelconque (pas un rectangle strict)."
Le modèle a l'air de raisonner, mais en réalité :
- Il a associé "rectangle" à "côtés égaux deux à deux" (vrai en géométrie euclidienne)
- Il n'a pas considéré que le terme pouvait être utilisé de manière approximative
- Il n'a pas vérifié si d'autres interprétations étaient possibles
Score dans le benchmark : 1/1 (succès !). Réalité : échec de raisonnement.
2. La malédiction des "benchmarks fuités"
Beaucoup de modèles sont entraînés sur les données des benchmarks (volontairement ou non). Résultat :
- GPT-4 : 90% sur MMLU
- Humain moyen : 85% sur MMLU
- GPT-4 sans les fuites : ~70% (estimation d'après des leaks internes)
Morale : Méfiez-vous des scores trop beaux. Comme les influenceurs Instagram, les LLMs trichent sur les angles de vue.
Limitations fondamentales : pourquoi on est dans la merde
1. Le théorème de l'incomplétude de Gödel, version IA
Les LLMs sont condamnés à être soit incomplets, soit incohérents :
- Incomplets : Ils ne peuvent pas garantir une réponse correcte à toute question (même avec une infinité de données).
- Incohérents : S'ils essaient de tout couvrir, ils finiront par se contredire (ex: "2+2=4" et "2+2=5 sont tous deux probables").
Preuve : Demandez à un LLM :
"Est-ce que cette affirmation est vraie ? 'Cette affirmation est fausse.'"
(Le modèle va tourner en rond comme un chien qui essaie d'attraper sa queue.)
2. L'absence de "modèle mental"
Un humain qui résout un problème de physique :
- Visualise mentalement la situation (une balle qui tombe)
- Applique les lois de Newton consciemment
- Vérifie si le résultat a du sens (une balle ne peut pas remonter toute seule)
Un LLM :
- Associe "balle", "tomber", "9.81 m/s²" à des phrases vues pendant l'entraînement
- Génère une équation qui "ressemble" à ce qu'il a déjà vu
- Ne vérifie rien (sauf si on lui demande explicitement, et encore...)
Conséquence : Les LLMs ne peuvent pas détecter leurs propres erreurs sans un mécanisme externe. D'où les problèmes de métacognition qui rendent impossible leur utilisation en contexte critique (médecine, droit, ingénierie).
3. Le coût énergétique du raisonnement
Faire vraiment raisonner un LLM nécessiterait :
- Des boucles de feedback massives (comme un humain qui relit son travail)
- Une mémoire épisodique (se souvenir d'où vient chaque information)
- Une capacité à simuler des scénarios (et pas juste à compléter des phrases)
Problème : Chaque étape supplémentaire multiplie la consommation énergétique. Aujourd'hui, un simple prompt sur GPT-4 coûte ~0.03 kWh. Un vrai raisonnement en 10 étapes ? ~3 kWh (soit l'équivalent d'un lave-linge en cycle complet).
Bonne nouvelle : Nebius travaille sur des usines à IA low-energy. Mauvaise nouvelle : Même avec 100% d'énergie verte, personne ne veut payer 5€ pour une réponse qui devrait coûter 0.05€.
Recherche & évolutions futures : les pistes (serieuses) pour s'en sortir
1. Les architectures neuro-symboliques
L'idée ? Combiner :
- Un LLM (pour le traitement du langage naturel)
- Un moteur symbolique (pour la logique formelle)
- Un module de vérification (pour détecter les incohérences)
Exemple concret : DeepMind's AlphaFold utilise une approche hybride pour prédire les structures protéiques. Résultat : précision > 90%, là où les LLMs purs échouent à 60%.
Obstacle : Cela nécessite de redéfinir l'architecture des LLMs from scratch. Et personne ne veut casser la poule aux œufs d'or des transformers.
2. L'apprentissage par renforcement avec feedback humain (RLHF 2.0)
Aujourd'hui, le RLHF sert surtout à :
- Rendre les réponses plus "polies"
- Éviter les hallucinations flagrantes
Demain, il faudrait :
- Récompenser la consistance logique (et pas juste la fluidité)
- Pénaliser les réponses confantes mais fausses
- Intégrer des boucles de vérification automatique
Problème : Cela nécessite des humains capables de détecter les erreurs de raisonnement, pas juste de juger si une réponse "sonne bien".
3. Les modèles de monde (World Models)
Inspirés des travaux de David Ha, ces architectures tentent de :
- Constuire une représentation interne du monde (physique, social, logique)
- Simuler les conséquences d'une action avant de répondre
- Mettre à jour cette représentation en fonction des feedbacks
Avantage : Cela permettrait enfin aux IA de comprendre les causes et effets, pas juste de corréler des mots.
Inconvénient : On en est au stade où un agent IA autonome gère les finances d'Accor... mais plante dès qu'il faut expliquer pourquoi une décision est prise.
4. Le retour des réseaux de neurones récurrents (RNN)
Oui, vous avez bien lu. Les RNN, ces dinosaures des années 2010, reviennent en force parce qu'ils :
- Gèrent mieux les dépendances longues (contrairement aux transformers, limités par leur fenêtre de contexte)
- Peuvent modéliser des états internes (comme une mémoire)
- Sont plus éco-énergétiques pour certaines tâches
Exemple : Les travaux de Google sur les RNN modernes montrent qu'ils peuvent rivaliser avec des transformers 10x plus gros sur des tâches de raisonnement séquentiel.
Ironie : Après avoir tué les RNN au profit des transformers, on réalise qu'on avait jeté le bébé avec l'eau du bain.
FAQ
[Pourquoi les LLMs échouent-ils sur des problèmes de logique basique ?] Ils sont conçus pour prédire des mots, pas pour manipuler des concepts logiques. Leur "raisonnement" est une illusion statistique : ils recyclent des phrases vues à l'entraînement sans comprendre les règles sous-jacentes. C'est comme demander à un perroquet de résoudre une équation différentielle.
[Existe-t-il des benchmarks fiables pour évaluer le raisonnement des IA ?] Non, et c'est un gros problème. Les benchmarks actuels (MMLU, BIG-Bench) testent surtout la mémorisation et la reconnaissance de patterns, pas la vraie logique. Pire : beaucoup de modèles sont **entraîn
🎓 Formation sur ce sujet
Construire des agents IA
5 leçons · 55 min · gratuit
Articles liés
L'IA "humanisée" : anatomie d'un argument marketing
Ces outils qui promettent de rendre l’IA "plus humaine" sont des usines à gaspillage. Benchmarks, architectures et pourquoi ça ne marchera jamais.
LLMs en médecine : ce que les ingénieurs ML doivent savoir avant de coder
Entre promesses marketing et réalités techniques, voici comment les grands modèles de langage débarquent (ou pas) dans les hôpitaux, avec benchmarks, architectures et pièges à éviter.
Qwen 3 d'Alibaba : anatomie technique d'une offensive IA mondiale
Architecture MoE, benchmarks MMLU/MATH, quantification et serving : tout ce que les ingénieurs ML doivent savoir sur Qwen 3.