NVIDIA vend une promesse séduisante : un supercalculateur IA dans une boîte de 150 mm de côté, posée sur votre bureau. Un petaFLOP de calcul, 128 Go de mémoire unifiée, des modèles jusqu'à 200 milliards de paramètres en local. Le tout pour le prix d'un bon PC gamer. Sur le papier, le DGX Spark — et son cousin grand public le RTX Spark dévoilé au Computex 2026 — ressemble à la démocratisation ultime de l'IA locale.
Sauf que le marketing ne dit jamais où ça coince. Et ça coince à un endroit très précis. Cet article décortique ce que la puce GB10 Grace Blackwell fait vraiment, chiffres et benchmarks à l'appui, pour vous éviter un achat à 4 700 € basé sur une fiche produit.
GB10 Grace Blackwell : que contient la boîte ?
Le DGX Spark repose sur le NVIDIA GB10 Grace Blackwell Superchip, un SoC qui fusionne un CPU ARM et un GPU Blackwell sur le même substrat, reliés par NVLink-C2C (5× la bande passante du PCIe Gen 5). Concrètement :
- CPU : 20 cœurs ARMv9 — 10 Cortex-X925 (performance) + 10 Cortex-A725 (efficacité)
- GPU : architecture Blackwell, 6 144 cœurs CUDA, Tensor Cores de 5e génération avec support natif FP4
- Calcul IA : jusqu'à 1 000 TOPS / 1 petaFLOP en FP4 (avec sparsité)
- Mémoire : 128 Go LPDDR5x unifiée (partagée de façon cohérente entre CPU et GPU)
- Stockage : jusqu'à 4 To NVMe
- Format : 150 × 150 mm, 1,2 kg, alimentation 240 W
- OS : DGX OS, un Ubuntu 24.04 légèrement customisé, avec toute la stack CUDA / NVIDIA AI préinstallée
La grande idée, c'est la mémoire unifiée : pas de copie coûteuse entre RAM système et VRAM. Le GPU adresse directement les 128 Go. C'est ce qui permet de charger des modèles qui feraient exploser n'importe quelle carte grand public — une RTX 5090 plafonne à 32 Go.
DGX Spark vs RTX Spark : une puce, deux mondes
Au Computex 2026, NVIDIA a élargi la gamme avec le RTX Spark, sa déclinaison grand public. La confusion est compréhensible, alors clarifions : le silicium est le même (GB10, parfois désigné N1X côté consumer). Ce qui change, c'est l'usage et l'écosystème :
- DGX Spark — orienté développeurs et chercheurs IA. Tourne sous DGX OS (Ubuntu), livré avec la stack data science / CUDA. C'est une station de prototypage.
- RTX Spark — orienté grand public et stations de travail haut de gamme. Tourne sous Windows, et arrive aussi sous forme de notebooks. NVIDIA vise le marché du PC premium avec une puce ARM + GPU RTX.
Autrement dit : même moteur, carrosserie différente. Si vous faites du dev IA sérieux, c'est DGX Spark sous Linux. Si vous voulez une machine ARM/RTX polyvalente sous Windows, c'est le RTX Spark.
La promesse : 200 milliards de paramètres sur le bureau
L'argument massue de NVIDIA, c'est la capacité. Avec 128 Go unifiés, le Spark charge en local des modèles jusqu'à 200 milliards de paramètres. Et si ça ne suffit pas, on peut relier deux unités directement via leurs cartes réseau ConnectX-7 (câble 200 Gbps, sans switch) pour créer un pool de 256 Go et viser des modèles de 405 milliards de paramètres.
Pour quiconque a déjà tenté de faire tourner un gros LLM en local, c'est alléchant. Mais charger un modèle et le faire tourner vite, ce sont deux choses très différentes.
Le mur de la bande passante (le chiffre que personne ne met en avant)
Voici LE chiffre à retenir, celui qui détermine tout : la mémoire LPDDR5x du GB10 offre 273 Go/s de bande passante (interface 256 bits, LPDDR5x à 8 533 MT/s). Ça paraît énorme. Ça ne l'est pas, dans ce contexte.
Comparez :
- DGX Spark (LPDDR5x unifiée) : 273 Go/s
- RTX 5090 (GDDR7) : ~1 790 Go/s
- NVIDIA H100 (HBM3) : 3 350 Go/s — soit 12× plus
Pourquoi c'est décisif ? Parce que la génération de tokens (decode) est limitée par la bande passante mémoire, pas par le calcul. Pour produire chaque token d'un modèle dense, le GPU doit lire tous les poids du modèle. Un modèle dense de 49 milliards de paramètres en FP8, c'est ~25 Go de lecture par token — soit 91 % du budget de 273 Go/s consommé pour une seule séquence.
Résultat sur des benchmarks réels (sources LMSYS, Tom's Hardware, ProXPC) :
- Llama 3.1 70B (FP8) : ~2,7 tokens/s en decode. Utilisable pour du batch ou tester des prompts, pas pour une conversation temps réel.
- GPT-OSS 20B (MXFP4, Ollama) : 49,7 tok/s en decode — contre 205 tok/s sur une RTX 5090 (~4× plus rapide).
- GPT-OSS 120B : ~11,7 tok/s sur le Spark, contre ~60 tok/s sur un Mac Studio M4 Max.
- Llama 3.1 8B : là le Spark s'en sort bien — 20,5 tok/s en batch 1, et il monte à 368 tok/s en batch 32.
Le message est clair : sur un gros modèle dense en single-stream, le Spark est lent. Le marketing parle de 1 petaFLOP ; la réalité du decode, c'est la bande passante qui commande.
Capacité vs débit : comprendre le vrai compromis
Tom's Hardware résume parfaitement la chose avec l'image d'un triangle : calcul, bande passante, capacité mémoire. Le Spark sacrifie la bande passante pour offrir un calcul correct et surtout une capacité énorme. C'est un arbitrage assumé.
La valeur du Spark n'est donc pas de servir un modèle vite. Elle est de pouvoir charger des modèles gigantesques qui ne tiennent tout simplement pas sur un GPU grand public, en acceptant un decode lent comme contrepartie. C'est un bac à sable de développement, pas un serveur d'inférence de production.
Les angles qui sauvent la mise
Heureusement, le single-stream ne raconte pas toute l'histoire. Trois éléments rééquilibrent le tableau :
1. Les modèles MoE (Mixture-of-Experts) changent la donne
Un modèle dense lit tous ses poids à chaque token. Un modèle MoE n'active qu'une fraction de ses paramètres. GPT-OSS, par exemple, compte 128 experts dont seulement 4 actifs par token : on lit ~5 milliards de paramètres au lieu de 120. Les octets lus par token passent de ~25 Go à ~2,5 Go. Avec le même budget de bande passante, on obtient 10× plus de tokens. Sur le Spark, privilégier les architectures MoE n'est pas un détail, c'est la stratégie.
2. La concurrence (batching) révèle le débit caché
Une critique single-stream à 2,7 tok/s donne une image trompeuse. En lui envoyant 256 flux concurrents, la même machine atteint ~695 tokens/s en débit agrégé. Le Spark n'est pas fait pour servir un utilisateur, il est fait pour traiter du volume : génération de datasets synthétiques, évaluation de modèles, pipelines batch.
3. Prototypage, fine-tuning et compatibilité CUDA
C'est là que le Spark brille vraiment : un environnement CUDA complet et bien supporté, où l'on peut prototyper localement avec de vrais grands modèles avant de déployer sur un cluster cloud. Pas de facture d'API qui grimpe pendant les itérations, pas de données qui sortent de chez vous. Mise à jour CES 2026 en prime : NVIDIA annonce jusqu'à 2,5× de performance via TensorRT-LLM et le speculative decoding.
Face à la concurrence : que choisir ?
À budget comparable (~4 000 à 5 000 €), le Spark n'est pas seul :
- Mac Studio M3 Ultra (512 Go) : bande passante >800 Go/s (3× le Spark) et capacité suffisante pour un Llama 3 405B en une seule machine. Pas de FP4 matériel, mais souvent plus rapide en génération de tokens. Le concurrent le plus sérieux pour l'IA locale pure.
- Rig 2× RTX 5090 : bande passante imbattable, mais 64 Go de VRAM seulement et une consommation/encombrement sans commune mesure. Excellent pour les modèles qui tiennent en VRAM, inutile au-delà.
- Cloud (H100/H200 à la demande) : imbattable en débit brut, mais coût récurrent et données qui sortent de votre infra.
Si la capacité + l'écosystème CUDA + la confidentialité priment : Spark. Si la vitesse de génération prime : Mac Studio Ultra ou GPU discret. Si vous voulez creuser le sujet, voir notre comparatif Mac Studio M4 Max vs M3 Ultra pour l'IA locale et notre sélection de modèles LLM à lancer en local en 2026.
Prix et disponibilité
La Founder's Edition a été lancée à 3 999 $. Mais la flambée des prix de la mémoire l'a poussée jusqu'à ~4 699 $ début 2026. Au-delà de l'édition NVIDIA, plusieurs constructeurs proposent leurs déclinaisons GB10 : ASUS Ascent GX10, Dell, HP, Lenovo, Acer Veriton AI et MSI EdgeXpert (configs jusqu'à 4 To NVMe). Disponible chez Micro Center, Newegg, Best Buy et la marketplace NVIDIA.
Verdict : pour qui, vraiment ?
Achetez-le si vous êtes développeur ou chercheur IA, que vous voulez prototyper en local avec de grands modèles (idéalement MoE), que la compatibilité CUDA et la confidentialité comptent, et que vous travaillez en batch plutôt qu'en conversation temps réel.
Passez votre chemin si vous cherchez la vitesse de génération maximale pour un usage interactif, ou si vos modèles tiennent déjà sur un GPU grand public — auquel cas une RTX 5090 sera bien plus rapide pour bien moins cher.
Le DGX Spark / RTX Spark n'est ni l'arnaque que dénoncent les déçus du single-stream, ni le supercalculateur magique du marketing. C'est un outil de niche, honnête sur ce qu'il fait quand on comprend la bande passante : démocratiser l'accès local aux très grands modèles, au prix d'un débit modeste. Pour l'écosystème de l'IA locale — celui qui veut garder ses données chez soi et arrêter de payer l'API au token — c'est une pièce de plus, pertinente, dans un puzzle qui s'agrandit vite.
Commentaires