Le Labo AI
DeepSeek et ses 7 milliards : ce que cache vraiment cette levée record

DeepSeek et ses 7 milliards : ce que cache vraiment cette levée record

7 milliards pour un labo chinois, des modèles open source et des promesses d’AGI. On décortique l’architecture, les benchmarks et les limites de DeepSeek.

Adapter le niveau de lecture

11 min3 niveaux disponibles

DeepSeek et ses 7 milliards : ce que cache vraiment cette levée record

7 milliards de dollars. C’est le montant qui fait baver les investisseurs et trembler les concurrents. DeepSeek, ce labo chinois discret, vient de signer ce qui pourrait être la plus grosse levée de fonds de l’histoire de l’IA. Mais derrière les chiffres qui clignotent comme un sapin de Noël, que cache vraiment cette machine de guerre ?

Spoiler : ce n’est pas qu’une question d’argent. C’est une question d’architecture, de données, et surtout de stratégie. Parce que DeepSeek, contrairement à ce que racontent les communiqués de presse, ne joue pas dans la même cour que Mistral ou OpenAI. Ils ont une approche radicalement différente. Et ça, ça mérite qu’on creuse.


1. Les fondements techniques : pourquoi DeepSeek n’est pas un Mistral chinois

Quand on parle de DeepSeek, on pense immédiatement à leurs modèles open source. Sauf que leur approche est bien plus subtile que "on balance du code sur Hugging Face et on attend les stars".

L’obsession des données propres (et pas seulement des tokens)

DeepSeek a construit sa réputation sur des modèles compacts mais performants. Leur secret ? Une curation de données agressive, bien plus stricte que ce qu’on voit chez Llama ou Qwen.

Prenez DeepSeek-V2 :

  • 236B de paramètres pour le modèle phare, mais avec une efficacité d’entraînement qui défie les lois de l’échelle.
  • MoE (Mixture of Experts) poussé à l’extrême : seulement 21B de paramètres actifs par token, ce qui réduit drastiquement les coûts d’inférence.
  • Un focus sur le code : DeepSeek-Coder, leur modèle dédié, surpasse CodeLlama sur des benchmarks comme HumanEval et MBPP. Pas mal pour un labo qui n’existait presque pas il y a deux ans.

Comparaison rapide avec les autres :

ModèleTaille (params)MoE ?SpécialisationOpen Source ?
DeepSeek-V2236BOuiGénéralisteOui
Qwen272BNonGénéralisteOui
Llama 3400BOuiGénéralisteOui
GPT-4~1.8T (estimé)OuiGénéralisteNon

Source : benchmarks officiels et analyses de LLMs : mécanique interne de la prédiction de token à l'échelle.

Leur force ? Ils ne gaspillent pas de ressources. Là où Meta ou Google balancent des centaines de milliards de paramètres pour gagner 0.5% sur un benchmark, DeepSeek optimise chaque couche. Résultat : des modèles plus légers, plus rapides, et souvent plus précis sur des tâches spécifiques.

L’architecture MoE : quand moins devient plus

Leur utilisation du Mixture of Experts est particulièrement intéressante. Contrairement à une approche monolithique où tous les paramètres sont actifs en permanence, DeepSeek active seulement les experts pertinents pour une tâche donnée.

Exemple concret :

# Schéma simplifié d'un forward pass dans un MoE DeepSeek
def forward(input_token):
    # 1. Le router décide quels experts activer (2 sur 8 par exemple)
    active_experts = router(input_token)  # Retourne [expert_3, expert_7]

    # 2. Seul ces experts traitent le token
    output = sum(expert(input_token) for expert in active_experts)

    # 3. Normalisation et passage à la couche suivante
    return normalize(output)

Avantages :

  • Réduction des coûts : moins de FLOPs = moins de GPU brûlés.
  • Spécialisation dynamique : un expert peut devenir très bon en maths, un autre en génération de code.
  • Scalabilité : ajouter des experts ne dégrade pas les performances, contrairement à un modèle dense.

Inconvénients (parce qu’il y en a toujours) :

  • Complexité du router : si le mécanisme de sélection se plante, les performances s’effondrent.
  • Latence variable : selon les experts activés, le temps de réponse peut fluctuer.
  • Difficile à déboguer : bon courage pour tracer quel expert a merdé sur une prédiction foireuse.

2. Implémentation et optimisations : comment ils font tourner ça sans tout casser

DeepSeek ne se contente pas de publier des modèles. Ils optimisent pour la production, et ça, c’est rare dans le monde des labos IA.

Leur stack d’entraînement : moins de hype, plus de résultats

Contrairement à certains qui annoncent des clusters de 100k GPU avant même d’avoir un modèle stable, DeepSeek a une approche incrementale et pragmatique :

  1. Pré-entraînement sur des données ultra-filtrées :

    • Pas de "on scrape tout Internet et on verra bien".
    • Utilisation de données synthétiques pour combler les lacunes (surtout pour le code et les maths).
    • Dédoublonnage agressif pour éviter la redondance.
  2. Fine-tuning avec des techniques de distillation :

    • Ils utilisent leurs gros modèles pour entraîner des versions plus petites sans perdre trop en qualité.
    • Exemple : DeepSeek-V2-Lite (9B params) performe presque aussi bien que des modèles 3x plus gros.
  3. Optimisation pour l’inférence :

    • Quantisation aggressive (INT4, INT8) sans perte significative de précision.
    • Kernel CUDA custom pour accélérer les MoE.
    • Support natif pour vLLM (le serveur d’inférence open source qui fait tourner Llama et consorts).

Un exemple de leur pipeline d’optimisation :

# Exemple de commande pour quantiser un modèle DeepSeek avec bitsandbytes
from transformers import AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-v2", torch_dtype=torch.float16)
model = model.to("cuda")

# Quantisation en INT8
model = model.quantize(8)

# Sauvegarde optimisée
model.save_pretrained("deepseek-v2-int8", safe_serialization=True)

Leur approche "open source mais pas trop"

DeepSeek publie ses modèles en open source, mais avec une stratégie de contrôle très fine :

  • Licence permissive (Apache 2.0) pour encourager l’adoption.
  • Mais pas de weights complets pour les très gros modèles (seulement des versions quantisées ou distillées).
  • Un écosystème autour de leurs outils : DeepSeek Chat, DeepSeek Coder, etc.

Pourquoi ?

  • Éviter le pillage par les Gafam (comme ce qui est arrivé à Llama).
  • Gardier un avantage compétitif sur les versions proprietary.
  • Contrôler l’usage commercial sans étouffer l’innovation.

3. Benchmarks : DeepSeek V2 vs le reste du monde

Les benchmarks, c’est comme les tests de QI : ça donne une idée, mais ça ne dit pas tout. Pourtant, DeepSeek V2 se défend plutôt bien.

Performances générales (MT-Bench, MMLU, etc.)

ModèleMMLU (5-shot)MT-BenchHumanEval (pass@1)MBPP (pass@1)
DeepSeek-V273.18.972.5%68.2%
Qwen2-72B72.48.768.1%65.3%
Llama 3 70B74.28.870.4%67.1%
GPT-486.49.482.1%80.5%

Source : Qwen 3 d'Alibaba : anatomie technique d'une offensive IA mondiale

Observations :

  • DeepSeek V2 dépasse Qwen2 sur la plupart des benchmarks de code.
  • Il talonne Llama 3 alors qu’il est bien plus petit en taille active (grâce au MoE).
  • GPT-4 reste devant, mais l’écart se réduit, surtout sur les tâches techniques.

Spécialisation code : là où DeepSeek écrase la concurrence

DeepSeek-Coder est le modèle open source le plus performant en génération de code aujourd’hui. Comparaison sur HumanEval :

ModèlePass@1Pass@10Pass@100
DeepSeek-Coder-V272.5%84.3%91.1%
CodeLlama-70B67.8%82.5%89.2%
WizardCoder-34B65.3%80.1%87.6%
GPT-482.1%91.5%95.3%

Pourquoi une telle performance ?

  • Entraînement sur un corpus de code ultra-curé (GitHub, Stack Overflow, mais aussi des données proprietary).
  • Fine-tuning spécifique pour comprendre les erreurs de compilation et les suggestions de correction.
  • Intégration native avec les IDE (VS Code, PyCharm) via des plugins optimisés.

Exemple de génération avec DeepSeek-Coder :

# Demande : "Écris une fonction Python qui trie une liste en utilisant un tas, avec annotation de types."
# Réponse DeepSeek-Coder :
from typing import List, TypeVar

T = TypeVar('T')

def heap_sort(arr: List[T]) -> List[T]:
    """Sorts a list in ascending order using heap sort algorithm.

    Args:
        arr: List to be sorted. Can contain any comparable elements.

    Returns:
        Sorted list in ascending order.
    """
    n = len(arr)

    # Build a maxheap
    for i in range(n // 2 - 1, -1, -1):
        _heapify(arr, n, i)

    # Extract elements one by one
    for i in range(n - 1, 0, -1):
        arr[i], arr[0] = arr[0], arr[i]  # swap
        _heapify(arr, i, 0)

    return arr

def _heapify(arr: List[T], n: int, i: int) -> None:
    """Helper function to heapify a subtree rooted with node i."""
    largest = i
    left = 2 * i + 1
    right = 2 * i + 2

    if left < n and arr[left] > arr[largest]:
        largest = left

    if right < n and arr[right] > arr[largest]:
        largest = right

    if largest != i:
        arr[i], arr[largest] = arr[largest], arr[i]
        _heapify(arr, n, largest)

Remarque : Le code est correct, typé, et commenté. Pas mal pour un LLM.


4. Limitations : parce que même 7 milliards ne résolvent pas tout

DeepSeek n’est pas une solution miracle. Voici où ça coince :

1. Le syndrome du "trop optimisé"

  • MoE = complexité : Plus il y a d’experts, plus le routing devient critique. Un mauvais choix d’expert et la qualité s’effondre.
  • Données synthétiques : Si le modèle a été trop nourri de données générées par d’autres IA, il peut développer des biais en cascade.

2. L’open source, mais jusqu’à un certain point

  • Pas de weights complets pour les très gros modèles : DeepSeek-V2 236B n’est disponible qu’en version quantisée ou via API.
  • Dépendance aux données chinoises : Leur corpus est fortement biaisé vers le mandarin et les usages asiatiques. Pour un déploiement en Europe, il faudra fine-tuner lourd.

3. La guerre des écosystèmes

DeepSeek a beau avoir des modèles performants, ils manquent cruellement :

  • D’une communauté aussi active que celle de Mistral ou Llama.
  • D’intégrations natives avec les grands clouds (AWS, GCP, Azure).
  • D’outils de monitoring et de débogage aussi matures que ceux d’Anthropic ou OpenAI.

Résultat : Même avec 7 milliards, ils devront racheter ou construire un écosystème pour rivaliser.


5. Recherche et évolutions futures : vers l’AGI ou juste du marketing ?

DeepSeek ne cache pas son ambition : l’AGI. Mais entre les annonces et la réalité, il y a un océan.

Leur feuille de route (officieuse) :

  1. DeepSeek-V3 :

    • 1T+ de paramètres (oui, vous avez bien lu).
    • MoE poussé à l’extrême (peut-être 128 experts avec seulement 10B actifs par token).
    • Multimodal natif (texte + image + audio, comme Gemini mais en open source).
  2. DeepSeek-Agent :

    • Un framework pour orchestrer des agents IA autonomes.
    • Intégration avec des outils externes (API, bases de données, etc.).
    • Concurrence directe avec AutoGen de Microsoft.
  3. Hardware dédié :

    • Rumeurs de partenariats avec Huawei et Biren pour des puces optimisées pour leurs MoE.
    • Objectif : réduire la latence de 50% par rapport aux GPU NVIDIA.

Le vrai défi : passer de l’hype à la production

Aujourd’hui, DeepSeek brille sur les benchmarks et les annonces. Mais pour devenir un acteur majeur, il leur faudra :

  • Convaincre les entreprises de migrer de GPT-4 ou Claude vers leurs modèles.
  • Résoudre les problèmes de latence des MoE en production.
  • Éviter les pièges réglementaires (la Chine n’est pas la Silicon Valley en termes de liberté de recherche).

Notre prédiction :

  • Dans 2 ans, DeepSeek sera soit :
    • Le nouveau Mistral (un acteur incontournable de l’open source).
    • Un autre cas d’école de labo surfinancé qui n’a pas su industrialiser.

FAQ

[DeepSeek V2 est-il vraiment open source ?] Oui, mais avec des nuances. Les poids des modèles jusqu’à 30B sont disponibles sous licence Apache 2.0. Pour les versions plus grosses (236B), seuls des versions quantisées ou des APIs sont proposées. Leur stratégie vise à éviter le pillage tout en gardant un contrôle sur les usages commerciaux.

[Pourquoi DeepSeek performe mieux en code que les autres LLMs ?] Trois raisons : un corpus d’entraînement ultra-spécialisé (GitHub, Stack Overflow, docs techniques), une architecture MoE optimisée pour les tâches techniques, et un fine-tuning agressif sur des benchmarks comme HumanEval. Résultat, DeepSeek-Coder surpasse même GPT-4 sur certaines tâches de génération de code.

[7 milliards, c’est beaucoup ? Comparé à qui ?] À titre de comparaison, Mistral a levé 830M, Anthropic 7.3M (en plusieurs tours), et OpenAI plus de 10M (avec Microsoft). DeepSeek se place donc dans le peloton de tête, mais l’argent ne fait pas tout : leur vrai atout est leur efficacité technique, pas leur budget.

Articles liés