Depuis deux ans, chaque processeur portable arrive avec son chiffre marketing : 50 TOPS chez AMD, 38 TOPS chez Apple, ~50 TOPS chez Intel. On vous vend un « PC IA », un « Copilot+ PC », une machine prête pour l'intelligence artificielle locale. Et puis vous lancez un LLM dessus, et c'est la douche froide : le NPU ne sert quasiment à rien pour générer du texte. Cet article explique ce qu'un NPU fait réellement, pourquoi les TOPS sont un indicateur trompeur pour les LLM, et où la frontière passe entre NPU et GPU.
C'est quoi un NPU, concrètement ?
Un NPU (Neural Processing Unit) est un accélérateur dédié à une seule opération : la multiplication matricielle en basse précision (INT8, INT4, parfois BF16). C'est un bloc à fonction fixe, gravé à côté du CPU et du GPU sur le même die. Sa raison d'être n'est pas la vitesse brute, mais l'efficacité énergétique : AMD annonce que son XDNA 2 est jusqu'à 35× plus efficace que le CPU sur les mêmes modèles, et tourne à une fraction de la consommation d'un GPU.
Les trois acteurs majeurs en 2026 :
- AMD XDNA 2 (Strix Point, Strix Halo, Ryzen AI 400) : jusqu'à 50 à 55 TOPS INT8, avec des primitives matérielles pour le softmax, la layer norm et le streaming du cache KV.
- Apple Neural Engine (M4) : 38 TOPS, identiques sur M4, M4 Pro et M4 Max. Apple revendique 60× la performance du premier ANE de l'A11 Bionic (2017).
- Intel NPU 5 (Panther Lake, Core Ultra Series 3, lancé au CES 2026) : ~48 à 50 TOPS. Attention au nom : « NPU 5 » désigne la 5e génération, pas 5 TOPS. Intel a volontairement réduit la taille du bloc plutôt que d'augmenter ses TOPS.
Le TOPS, ou l'art de mesurer un pic qu'on n'atteint jamais
Un TOPS, c'est mille milliards d'opérations par seconde. Le piège : ce chiffre est un pic théorique, mesuré dans des conditions idéales où le matériel est saturé en calcul. Or l'inférence d'un LLM ne ressemble pas du tout à ça.
Un modèle de langage tourne en deux phases radicalement différentes :
- Prefill (traitement du prompt) : tous les tokens d'entrée sont connus d'avance, le calcul est une grosse multiplication matrice × matrice. C'est compute-bound : les milliers d'unités de calcul s'allument, l'utilisation grimpe à 90-95 %. Ici, les TOPS comptent vraiment. C'est la phase qui détermine le time-to-first-token (TTFT).
- Decode (génération token par token) : le modèle produit un mot à la fois. Chaque token exige une multiplication matrice × vecteur, soit lire l'intégralité des poids du modèle pour ne calculer qu'un seul vecteur. L'arithmétique est terminée en une fraction de milliseconde, puis les unités attendent que les poids suivants arrivent de la mémoire. C'est memory-bound.
C'est le fameux « memory wall ». Pour un modèle 7B en FP16, il faut faire transiter 14 Go de poids par token sur le bus mémoire. La lecture prend 10 à 50× plus de temps que le calcul lui-même. Résultat : en decode, l'immense matrice de calcul du NPU est affamée, elle tourne à vide. Les TOPS ne servent à rien.
Le chiffre le plus parlant vient d'un NPU Hailo-10H noté 40 TOPS : en génération réelle de LLM, les chercheurs ont mesuré 6,9 tok/s. Loin, très loin du pic annoncé. Sur Apple Silicon, c'est la même logique : les 38 TOPS de l'ANE sont identiques sur tous les M4, mais la vitesse de génération d'un 70B varie de 4 à 5× selon que vous prenez un M4 de base ou un M4 Max — uniquement à cause du bus mémoire (546 Go/s sur le Max). J'en parle en détail dans VRAM, RAM et bande passante : comment calculer si un LLM tient en local.
Pourquoi le GPU gagne (presque) toujours pour les LLM
Si le decode est memory-bound, alors la question n'est pas « combien de TOPS », mais « combien de bande passante et quelle taille de mémoire ». Et là, le GPU intégré écrase le NPU pour trois raisons :
- Le NPU est physiquement minuscule. Sur un M2 Max, l'ANE occupe moins d'un dixième de la surface du GPU. Le NPU iPhone et le NPU Mac sont les mêmes 16 cœurs. Il n'a quasiment pas grossi entre générations, alors que le GPU est passé de 10 à 40 cœurs entre M4 et M4 Max.
- Le GPU a accès à toute la bande passante. C'est exactement la stratégie « Hybrid » d'AMD : le NPU gère le prefill (compute-bound, faible TTFT), et l'iGPU prend le decode (bandwidth-bound). Sur un Ryzen AI Max+ 395, le iGPU Radeon 8060S atteint jusqu'à 61 tok/s sur les modèles client.
- L'écosystème logiciel cible le GPU. llama.cpp, MLX, LM Studio offloadent vers le GPU, pas le NPU. Les NPU n'acceptent souvent que l'INT8 et exigent une quantification spécifique ; ils gèrent mal les formes dynamiques des LLM.
AMD a même démontré un Llama 3.1 70B quantifié 4-bit tournant 2× plus vite qu'une RTX 4090 24 Go sur un Ryzen AI Max+ 395 — non pas grâce au NPU, mais grâce à la mémoire unifiée (jusqu'à 128 Go) qui permet de loger un modèle qui ne tient pas dans 24 Go de VRAM. C'est tout l'intérêt de l'architecture Strix Halo, que je détaille dans AMD Strix Halo (Ryzen AI Max+ 395) pour l'IA locale. Le même principe de mémoire unifiée explique pourquoi un Mac Studio M4 Max ou M3 Ultra est si efficace en LLM, et pourquoi le NVIDIA DGX Spark mise tout sur la bande passante mémoire plutôt que sur les TOPS du NPU.
Alors, à quoi sert vraiment le NPU ?
Le NPU n'est pas inutile — il est juste mal vendu. Il excelle sur les charges continues, parallélisables et compute-bound, où il reste saturé tout en consommant très peu. Concrètement :
- Windows Studio Effects : flou d'arrière-plan, correction du regard (eye contact), recadrage automatique, suppression de bruit. Intel revendique jusqu'à 9 heures de visioconférence Teams avec les effets activés, justement parce que ça tourne sur le NPU et pas sur le GPU.
- Copilot+ : Recall, Live Captions, Cocreator, super-résolution. Microsoft impose 40+ TOPS sur le seul NPU (pas en additionnant CPU+GPU+NPU) précisément pour garantir que ces fonctions always-on tournent sans vider la batterie ni saturer le GPU.
- Perception en temps réel : transcription/traduction offline (44+ langues), détection, génération d'image en arrière-plan.
Le point commun : ce sont des flux parallèles qui maintiennent les unités de calcul occupées, où l'efficacité énergétique et la confidentialité (tout reste en local) priment sur la vitesse brute. C'est exactement le terrain où un GPU serait du gaspillage d'énergie.
Verdict : ne payez pas pour des TOPS que vous n'utiliserez pas
Si votre objectif est de faire tourner des LLM en local, le NPU est presque hors-sujet. Regardez plutôt :
- La bande passante mémoire (256, 400, 546 Go/s…) : c'est elle qui dicte votre débit en tok/s.
- La taille de la mémoire unifiée : 32, 64, 128 Go décident quels modèles vous pouvez loger.
- La puissance du GPU/iGPU et la maturité de son stack (ROCm, Metal/MLX, OpenVINO).
Le NPU, lui, justifie son existence pour l'autonomie : visio propre toute la journée, sous-titres live, Copilot+ sans chauffe ni ventilateur. C'est un excellent coprocesseur de perception, pas un moteur de génération de texte. Pour choisir vos modèles une fois le bon matériel en main, voyez les meilleurs modèles LLM locaux 2026 sur Ollama. La prochaine fois qu'un constructeur agite un chiffre de TOPS pour vendre de « l'IA », vous saurez exactement ce que ça vaut — et ce que ça ne vaut pas.
Commentaires