Intelligence Artificielle 17/06/2026 6 min de lecture

AMD Strix Halo (Ryzen AI Max+ 395) pour l'IA locale : le concurrent à 1 500 € du DGX Spark ?

128 Go de mémoire unifiée, un iGPU RDNA 3.5 et un prix trois fois inférieur au DGX Spark. On décortique les vrais benchmarks LLM du Ryzen AI Max+ 395 : tokens/s réels en dense et en MoE, le mur des 256 Go/s, et pour qui cette APU vaut vraiment le coup.

Quand NVIDIA a sorti son DGX Spark à 4 000 €, AMD préparait sa réponse dans le même créneau : faire tourner de gros modèles en local grâce à une mémoire unifiée massive. Sauf que le Ryzen AI Max+ 395 — nom de code Strix Halo — arrive avec un argument brutal : ~1 500 €, soit près de trois fois moins cher. Sur le papier, c'est le tueur du Spark.

Comme toujours, le papier ment par omission. Cet article décortique ce que cette APU fait vraiment en inférence LLM, benchmarks communautaires à l'appui, pour vous dire si elle mérite votre argent — ou pas.

Que contient la puce ?

Le Ryzen AI Max+ 395 est un SoC gravé en 4 nm chez TSMC qui fusionne CPU, GPU et NPU sur le même die, avec un pool de mémoire partagé. Concrètement :

CPU : 16 cœurs Zen 5
GPU intégré : 40 unités de calcul RDNA 3.5 (nom de code gfx1151)
NPU : XDNA 2, ~50 TOPS en INT8
Mémoire : 128 Go LPDDR5X-8000 unifiée, partagée entre CPU et GPU
Bande passante mémoire : ~256 Go/s

L'idée est exactement la même que chez NVIDIA : la mémoire unifiée élimine la copie coûteuse entre RAM système et VRAM, et permet de charger des modèles qui feraient exploser n'importe quelle carte grand public. Une RTX 5090 plafonne à 32 Go ; ici, vous avez de quoi loger un modèle dense de 70 milliards de paramètres sans la moindre acrobatie.

Détail crucial pour qui veut maximiser les performances : l'allocation GPU dépend de l'OS. Sous Linux, vous pouvez assigner jusqu'à 110 Go directement au GPU ; sous Windows, la Variable Graphics Memory d'AMD plafonne à 96 Go. Pour de l'IA locale sérieuse, c'est Linux.

Les vrais chiffres : tokens/s en conditions réelles

Les benchmarks communautaires (sous llama.cpp avec backend Vulkan ou ROCm) dressent un tableau nuancé, et c'est là que tout se joue.

Petits modèles (≤ 3B) : excellents

Un 3B en Q4 grimpe de ~28 à ~93 tokens/s en décodage selon le contexte. La quantification est un multiplicateur direct sur mémoire unifiée : moins de bits, plus de débit. Pour de l'assistance code légère ou du RAG, c'est fluide.

Modèles moyens (10–30B) : la zone variable

C'est le créneau « utile mais inégal » : certains modèles de 20–30B restent agréables (9 à 20 tok/s), d'autres s'effondrent à 4 tok/s. L'architecture compte ici plus que le nombre de paramètres.

Gros modèles denses (70B) : ça charge, mais ça rampe

Un 70B en BF16 se charge intégralement sans sharding — impossible sur une carte grand public — mais l'inférence plafonne à ~14 tok/s. Ce n'est pas un défaut du modèle : c'est le coût inhérent de la génération sur un transformeur dense, étranglée par la bande passante.

Modèles MoE : le vrai terrain de jeu

C'est là que la grosse mémoire prend tout son sens. Qwen3 235B, un Mixture-of-Experts qui n'active que ~22 milliards de ses 235 milliards de paramètres par passe, tourne à ~11 tok/s avec un premier token en 0,03 s. Vous déplacez les poids actifs, pas le modèle entier. Sur cette classe de matériel, privilégier les architectures MoE n'est pas un détail, c'est la stratégie.

Le mur de la bande passante (encore lui)

Voici le chiffre qui explique tout : ~256 Go/s. C'est quasiment identique au DGX Spark (273 Go/s), et c'est 4 à 7 fois moins qu'un GPU discret (RTX 5090 : ~1 790 Go/s).

Pourquoi c'est décisif ? Parce que la génération de tokens est limitée par la bande passante mémoire, pas par le calcul. Pour produire chaque token d'un modèle dense, le GPU doit relire tous les poids. À titre de comparaison, une RTX 4090 fait 127 tok/s sur un 8B contre ~48 tok/s pour le Strix Halo. La carte dédiée écrase l'APU en vitesse pure — mais elle ne peut tout simplement pas charger les modèles que l'APU avale sans broncher. C'est tout le compromis.

Bonne nouvelle en revanche côté prefill (lecture du prompt) : grâce à la mémoire qui tourne près de son débit crête, certains modèles atteignent ~1 190 tok/s en lecture. Pour un pipeline RAG qui ingère un document de 50 pages, la phase de lecture est expédiée.

Strix Halo vs DGX Spark : le match

Les deux jouent dans la même catégorie — grosse mémoire unifiée, bande passante modeste, IA locale — mais avec des philosophies opposées :

Architecture : Strix Halo est x86 (Zen 5 + RDNA 3.5), le DGX Spark est ARM (Grace + Blackwell).
Écosystème : NVIDIA a pour lui CUDA, mature et universel. AMD repose sur ROCm / Vulkan, en net progrès mais encore plus rugueux à configurer.
FP4 matériel : le Blackwell du Spark le gère nativement, pas le RDNA 3.5.
Prix : ~1 500 € contre ~4 000–4 700 €. C'est l'argument numéro un d'AMD.

Verdict croisé : si vous voulez le meilleur rapport capacité/prix pour bricoler de gros modèles MoE en local et que vous n'avez pas peur de Linux + ROCm, le Strix Halo est imbattable. Si vous dépendez de CUDA ou du FP4 pour votre workflow, le surcoût du Spark se justifie.

Où l'acheter ?

Le Ryzen AI Max+ 395 se trouve dans plusieurs machines clés en main : le Framework Desktop (le plus ouvert et documenté pour le tinkering), des mini-PC comme le GMKtec EVO-X2, ainsi que divers ultraportables haut de gamme. Pour l'IA locale, visez impérativement la configuration 128 Go — les variantes 32/64 Go tuent tout l'intérêt de la mémoire unifiée.

Verdict : pour qui, vraiment ?

Achetez-le si vous voulez faire tourner de gros modèles (idéalement MoE) en local sans vous ruiner, que la confidentialité de vos données compte, que vous travaillez surtout en batch ou en RAG, et que Linux ne vous fait pas peur.

Passez votre chemin si vous cherchez la vitesse de génération maximale en usage interactif (un GPU discret sera bien plus rapide), si vos modèles tiennent déjà dans 24–32 Go de VRAM, ou si vous ne pouvez pas vous passer de CUDA.

Le Strix Halo n'est ni le miracle « tueur de NVIDIA » des titres putaclic, ni un gadget. C'est une APU honnête, qui démocratise l'accès local aux grands modèles au prix d'un débit modeste — et qui le fait pour trois fois moins cher que la concurrence. Dans l'écosystème de l'IA locale qui s'agrandit vite, c'est une pièce sérieuse.

Pour aller plus loin : notre analyse du DGX Spark de NVIDIA, le comparatif Mac Studio M4 Max vs M3 Ultra pour l'IA locale, et notre guide pour calculer la VRAM nécessaire à un LLM en local.

Cet article vous a plu ?

Commentaires

Morgann Riu

Expert en cybersécurité et administration Linux. J'aide les entreprises à sécuriser et optimiser leurs infrastructures critiques.

Me contacter

AMD Strix Halo Ryzen AI Max+ 395 IA locale LLM RDNA 3.5 mémoire unifiée llama.cpp

Retour au blog

Que contient la puce ?

Les vrais chiffres : tokens/s en conditions réelles

Petits modèles (≤ 3B) : excellents

Modèles moyens (10–30B) : la zone variable

Gros modèles denses (70B) : ça charge, mais ça rampe

Modèles MoE : le vrai terrain de jeu

Le mur de la bande passante (encore lui)

Strix Halo vs DGX Spark : le match

Où l'acheter ?

Verdict : pour qui, vraiment ?

Commentaires

Recommandé pour vous

Quantification GGUF : Q4_K_M, Q5_K_M, Q6_K ou Q8_0 — comment choisir sans casser la qualité

RAG local avec Ollama : un assistant qui lit VOS documents, 100% hors-ligne

Runtimes LLM local en 2026 : llama.cpp, Ollama, vLLM, LM Studio, TGI, lequel choisir ?

Fine-tuner un LLM en local avec LoRA et QLoRA : VRAM, datasets et attentes réalistes

Tuto associé

Aller plus loin

Checklist Sécurité Linux