Quelle config PC pour faire tourner l'IA en local

La bonne question n'est pas « quel est le GPU le plus puissant » mais « combien de mémoire pour le modèle que je veux faire tourner, et à quelle bande passante ». Voici comment arbitrer, avec des chiffres que j'ai mesurés en vrai.

La règle n°1 : la mémoire avant la vitesse

Pour l'inférence (faire tourner un modèle déjà entraîné), c'est la quantité de mémoire qui décide ce que vous pouvez charger, pas la puissance brute. Un modèle qui ne tient pas en VRAM déborde sur la RAM système et s'effondre en vitesse.

Ordre de grandeur en quantification Q4_K_M (le bon compromis qualité/taille), poids seuls : ~4-5 Go pour un modèle 8B, ~7-8 Go pour un 13-14B, ~19 Go pour un 32B, ~40 Go pour un 70B. À budget égal, une carte avec plus de VRAM (même un peu moins rapide) est presque toujours le meilleur choix pour l'IA — c'est pourquoi une RTX 3090 d'occasion (24 Go) reste une affaire redoutable.

Le piège du contexte (KV-cache). Au-delà des poids, le « KV-cache » consomme de la mémoire proportionnellement à la longueur de contexte. Sur un 70B en 128k tokens de contexte, il peut atteindre ~40 Go — soit autant que les poids ! Conséquence : un 70B « rentre » sur 24 Go mais sans marge de contexte. Visez 48 Go+ pour du 70B confortable, ou quantifiez le KV-cache en Q8 (supporté par llama.cpp) pour diviser ce coût par deux.

Le vrai facteur de vitesse : la bande passante mémoire

Une fois le modèle chargé, la vitesse de génération est dictée par la bande passante mémoire (Go/s), pas par les TFLOPs. C'est contre-intuitif, mais ça explique tout : une carte « moins puissante » avec une mémoire plus rapide génère plus de tokens par seconde qu'une carte plus musclée mais étranglée en mémoire.

Deuxième levier décisif : les modèles « MoE » (Mixture of Experts). Un modèle comme Qwen3-Coder 30B n'active que ~3 milliards de paramètres par token (« 30B-A3B ») — il a la culture d'un gros modèle mais le coût de calcul d'un petit. C'est ce qui rend l'IA locale viable même sans GPU monstrueux.

Règle d'or chiffrée : débit (tokens/s) ≈ bande passante mémoire (Go/s) ÷ taille du modèle en mémoire (Go). C'est pour ça qu'une RTX 3090 d'occasion (936 Go/s) reste excellente, et qu'il faut regarder les Go/s, pas le marketing.
PuceMémoireBande passanteLecture
RTX 509032 Go GDDR7~1 792 Go/sla plus rapide, et la plus chère
RTX 409024 Go~1 008 Go/sréférence haut de gamme
RTX 508016 Go GDDR7~960 Go/srapide mais VRAM limitée
RTX 3090 (occasion)24 Go~936 Go/sle roi du VRAM/€
RTX 5070 Ti16 Go GDDR7~896 Go/sbon compromis milieu de gamme
Mac Studio M3 Ultrajusqu'à 512 Go unifiés~819 Go/sénorme mémoire, rapide
RTX 306012 Go~360 Go/sentrée de gamme
DGX Spark (GB10)128 Go unifiés~273 Go/scher pour la bande passante
Strix Halo (Ryzen AI Max+ 395)128 Go unifiés~256 Go/s (~215 réel)énorme capacité, débit modéré
Mesuré en conditions réelles. Un Qwen3-Coder 30B (MoE, 3B actifs) tourne à ~16 à 25 tokens/s en CPU pur sur un serveur bi-Xeon 256 Go — sans aucun GPU (le bon réglage NUMA fait passer de 0,14 à 16 tok/s, soit ×113 : la config compte autant que le matériel). Côté image/vidéo, une RTX 5080 16 Go génère un clip vidéo Wan 2.2 en 720p (5 s) en ~10 min via ComfyUI. Ces chiffres valent mieux qu'une fiche technique pour calibrer vos attentes.

Trois paliers selon votre objectif

Palier 1 — Découverte

~ 900 €

Objectif : LLM 7-8B quantifié, Stable Diffusion / SDXL, transcription Whisper. Pour apprendre et prototyper.

RôlePièce conseilléePrix
GPURTX 4060 Ti 16 Go (ou 3060 12 Go d'occasion)Comparer
CPURyzen 5 7600 / Core i5 13400Comparer
RAM32 Go DDR5Comparer
Alimentation650 W 80+ GoldComparer

Palier 3 — Workstation

3 200 € +

Objectif : 70B quantifié (avec offload), entraînement de LoRA, génération vidéo (Wan, etc.). Pour produire sérieusement.

RôlePièce conseilléePrix
GPURTX 5090 32 Go (ou 4090 / 3090 24 Go d'occasion = VRAM/€)Comparer
CPURyzen 9 9900XComparer
RAM128 Go DDR5Comparer
Alimentation1000-1200 W 80+ PlatinumComparer

À quoi s'attendre, concrètement (tokens/s)

Quelques repères de débit en génération mesurés par la communauté (Q4, ordre de grandeur) :

  • RTX 4060 Ti → modèle 8B : ~48 tok/s (très confortable).
  • RTX 3090 → modèle 8B : ~87 tok/s ; RTX 4090 → 70B : ~54 tok/s.
  • Strix Halo (mémoire unifiée) → gpt-oss-120b : ~30-52 tok/s.
Honnêteté sur les bancs. Un 70B sur une seule RTX 3090 (24 Go) annonce ~46 tok/s en benchmark, mais sature la VRAM : en usage réel sans optimisation, on tombe souvent à ~8 tok/s, sans marge de contexte. Les chiffres « benchmark » et « vie réelle » divergent — méfiez-vous des tableaux trop beaux. Et sur les plateformes à mémoire unifiée, le prefill (lecture du prompt) est plus lent que sur GPU dédié : à surveiller si vous faites du RAG sur de longs documents.

L'alternative que peu de gens connaissent : la mémoire unifiée

Pour faire tourner de gros modèles (100B+), une autre voie que le GPU à 2 000 € existe : les machines à mémoire unifiée, où le processeur et la partie graphique partagent une grande réserve de RAM rapide.

  • Mini-PC Strix Halo 128 Go (Ryzen AI Max+ 395, ~1 900 €) : fait tourner un modèle 120B (gpt-oss-120b) à ~40 tokens/s — impossible sur une carte 16 Go. Meilleur rapport intelligence/euro du moment.
  • Mac Studio (mémoire unifiée 128-256 Go) : très rapide en bande passante, idéal si vous êtes dans l'écosystème Apple. On paie surtout la vitesse mémoire.
Le piège à éviter. Toutes les boîtes « IA » ne se valent pas : un DGX Spark / GB10 a une bande passante mémoire faible (~273 Go/s) pour son prix (~4 500 €) — mauvais rapport perf/€ pour de l'inférence. Encore une fois : regardez les Go/s, pas le marketing.

Le stack logiciel (gratuit) qui va avec

Le matériel ne sert à rien sans les bons outils. Voici ceux que j'utilise au quotidien, tous open source :

  • llama.cpp / ik_llama.cpp — moteur d'inférence LLM le plus efficace (CPU et GPU) ; le fork ik gagne +25 à +68 % sur CPU avec le « run-time repack ».
  • Ollama — la façon la plus simple de lancer un LLM local en une commande, pour débuter.
  • ComfyUI — génération d'image et de vidéo (SDXL, Flux, Wan 2.2) par graphe de nœuds.
  • faster-whisper (transcription) et Kokoro / Piper (synthèse vocale) — pour l'audio, en local et hors-ligne.

Les pièges à éviter

  • Payer pour des téraflops au lieu de mémoire : un 70B ne rentrera jamais dans 12 Go, quelle que soit la puissance.
  • Sous-dimensionner la RAM système : indispensable pour l'offload CPU des gros modèles (visez 2× la VRAM).
  • Négliger l'alimentation : une 5090 tire de gros pics — sous-alimenter = instabilité.
  • Viser le « niveau ChatGPT » en local : un modèle vraiment au niveau des meilleurs (Opus, GPT-5) demande 10 000 à 20 000 € de matériel. En dessous, on vise l'excellent-mais-pas-frontier — et on complète par une API pour le très dur (voir ci-dessous).
  • Acheter un GPU cher pour un usage ponctuel : dans ce cas, le cloud GPU est souvent plus malin.
La stratégie que je recommande : l'hybride. Une machine locale absorbe 80-90 % des usages (gratuit, privé, illimité) ; on route les 10-20 % de tâches les plus dures vers une API — y compris des offres gratuites. On obtient ~95 % de la qualité du frontier sans investissement lourd.
Où acheter ? Sur une config complète, méfiez-vous d'Amazon dont la commission affiliée est plafonnée : ça n'affecte pas votre prix, mais des revendeurs comme LDLC ou Cdiscount sont tout aussi compétitifs sur les gros paniers. Comparez toujours avant de valider.

Repères de prix (mi-2026, volatils)

Les prix bougent vite (tension sur la mémoire, demande IA). Ordres de grandeur observés mi-2026, à revérifier avant achat :

  • RTX 5090 : ~3 400 € (en baisse depuis ~4 000 € début 2026) · RTX 5080 : ~1 200 € · RTX 5070 Ti : ~900 €.
  • RTX 3090 d'occasion : ~800-900 € (très variable selon l'annonce).
  • Mini-PC mémoire unifiée 128 Go (GMKtec EVO-X2) : ~1 900-2 000 €.

Sources & méthode. Bandes passantes et VRAM : fiches constructeurs et TechPowerUp ; tailles de modèles : cartes Hugging Face et doc llama.cpp ; débits : bancs communautaires (LocalScore, GPU-Benchmarks-on-LLM-Inference) ; prix : relevés revendeurs FR. Les benchmarks que je cite comme « mesurés » viennent de mon propre usage. Tout chiffre « ordre de grandeur » est à vérifier au moment de l'achat.

Pas sûr de votre choix ?

Je peux valider votre configuration, l'adapter à vos modèles cibles, et monter le stack logiciel (llama.cpp, ComfyUI, Ollama) avec vous.

Faire valider ma config