Quelle config PC pour faire tourner l'IA en local

La règle n°1 : la mémoire avant la vitesse

Pour l'inférence (faire tourner un modèle déjà entraîné), c'est la quantité de mémoire qui décide ce que vous pouvez charger, pas la puissance brute. Un modèle qui ne tient pas en VRAM déborde sur la RAM système et s'effondre en vitesse.

Ordre de grandeur en quantification Q4_K_M (le bon compromis qualité/taille), poids seuls : ~4-5 Go pour un modèle 8B, ~7-8 Go pour un 13-14B, ~19 Go pour un 32B, ~40 Go pour un 70B. À budget égal, une carte avec plus de VRAM (même un peu moins rapide) est presque toujours le meilleur choix pour l'IA — c'est pourquoi une RTX 3090 d'occasion (24 Go) reste une affaire redoutable.

Le piège du contexte (KV-cache). Au-delà des poids, le « KV-cache » consomme de la mémoire proportionnellement à la longueur de contexte. Sur un 70B en 128k tokens de contexte, il peut atteindre ~40 Go — soit autant que les poids ! Conséquence : un 70B « rentre » sur 24 Go mais sans marge de contexte. Visez 48 Go+ pour du 70B confortable, ou quantifiez le KV-cache en Q8 (supporté par llama.cpp) pour diviser ce coût par deux.

Le vrai facteur de vitesse : la bande passante mémoire

Une fois le modèle chargé, la vitesse de génération est dictée par la bande passante mémoire (Go/s), pas par les TFLOPs. C'est contre-intuitif, mais ça explique tout : une carte « moins puissante » avec une mémoire plus rapide génère plus de tokens par seconde qu'une carte plus musclée mais étranglée en mémoire.

Deuxième levier décisif : les modèles « MoE » (Mixture of Experts). Un modèle comme Qwen3-Coder 30B n'active que ~3 milliards de paramètres par token (« 30B-A3B ») — il a la culture d'un gros modèle mais le coût de calcul d'un petit. C'est ce qui rend l'IA locale viable même sans GPU monstrueux.

Règle d'or chiffrée : débit (tokens/s) ≈ bande passante mémoire (Go/s) ÷ taille du modèle en mémoire (Go). C'est pour ça qu'une RTX 3090 d'occasion (936 Go/s) reste excellente, et qu'il faut regarder les Go/s, pas le marketing.

Puce	Mémoire	Bande passante	Lecture
RTX 5090	32 Go GDDR7	~1 792 Go/s	la plus rapide, et la plus chère
RTX 4090	24 Go	~1 008 Go/s	référence haut de gamme
RTX 5080	16 Go GDDR7	~960 Go/s	rapide mais VRAM limitée
RTX 3090 (occasion)	24 Go	~936 Go/s	le roi du VRAM/€
RTX 5070 Ti	16 Go GDDR7	~896 Go/s	bon compromis milieu de gamme
Mac Studio M3 Ultra	jusqu'à 512 Go unifiés	~819 Go/s	énorme mémoire, rapide
RTX 3060	12 Go	~360 Go/s	entrée de gamme
DGX Spark (GB10)	128 Go unifiés	~273 Go/s	cher pour la bande passante
Strix Halo (Ryzen AI Max+ 395)	128 Go unifiés	~256 Go/s (~215 réel)	énorme capacité, débit modéré

Mesuré en conditions réelles. Un Qwen3-Coder 30B (MoE, 3B actifs) tourne à ~16 à 25 tokens/s en CPU pur sur un serveur bi-Xeon 256 Go — sans aucun GPU (le bon réglage NUMA fait passer de 0,14 à 16 tok/s, soit ×113 : la config compte autant que le matériel). Côté image/vidéo, une RTX 5080 16 Go génère un clip vidéo Wan 2.2 en 720p (5 s) en ~10 min via ComfyUI. Ces chiffres valent mieux qu'une fiche technique pour calibrer vos attentes.

Trois paliers selon votre objectif

Palier 1 — Découverte

~ 900 €

Objectif : LLM 7-8B quantifié, Stable Diffusion / SDXL, transcription Whisper. Pour apprendre et prototyper.

Rôle	Pièce conseillée	Prix
GPU	RTX 4060 Ti 16 Go (ou 3060 12 Go d'occasion)	Comparer
CPU	Ryzen 5 7600 / Core i5 13400	Comparer
RAM	32 Go DDR5	Comparer
Alimentation	650 W 80+ Gold	Comparer

Palier 2 — Confort

~ 1 700 €

Objectif : LLM 14-32B quantifié, Flux / SDXL rapides, vidéo courte. Le meilleur rapport plaisir/prix pour un usage régulier.

Rôle	Pièce conseillée	Prix
GPU	RTX 5070 Ti 16 Go (ou 4070 Ti Super 16 Go)	Comparer
CPU	Ryzen 7 9700X	Comparer
RAM	64 Go DDR5	Comparer
Alimentation	850 W 80+ Gold	Comparer

Palier 3 — Workstation

3 200 € +

Objectif : 70B quantifié (avec offload), entraînement de LoRA, génération vidéo (Wan, etc.). Pour produire sérieusement.

Rôle	Pièce conseillée	Prix
GPU	RTX 5090 32 Go (ou 4090 / 3090 24 Go d'occasion = VRAM/€)	Comparer
CPU	Ryzen 9 9900X	Comparer
RAM	128 Go DDR5	Comparer
Alimentation	1000-1200 W 80+ Platinum	Comparer

À quoi s'attendre, concrètement (tokens/s)

Quelques repères de débit en génération mesurés par la communauté (Q4, ordre de grandeur) :

RTX 4060 Ti → modèle 8B : ~48 tok/s (très confortable).
RTX 3090 → modèle 8B : ~87 tok/s ; RTX 4090 → 70B : ~54 tok/s.
Strix Halo (mémoire unifiée) → gpt-oss-120b : ~30-52 tok/s.

Honnêteté sur les bancs. Un 70B sur une seule RTX 3090 (24 Go) annonce ~46 tok/s en benchmark, mais sature la VRAM : en usage réel sans optimisation, on tombe souvent à ~8 tok/s, sans marge de contexte. Les chiffres « benchmark » et « vie réelle » divergent — méfiez-vous des tableaux trop beaux. Et sur les plateformes à mémoire unifiée, le prefill (lecture du prompt) est plus lent que sur GPU dédié : à surveiller si vous faites du RAG sur de longs documents.

L'alternative que peu de gens connaissent : la mémoire unifiée

Pour faire tourner de gros modèles (100B+), une autre voie que le GPU à 2 000 € existe : les machines à mémoire unifiée, où le processeur et la partie graphique partagent une grande réserve de RAM rapide.

Mini-PC Strix Halo 128 Go (Ryzen AI Max+ 395, ~1 900 €) : fait tourner un modèle 120B (gpt-oss-120b) à ~40 tokens/s — impossible sur une carte 16 Go. Meilleur rapport intelligence/euro du moment.
Mac Studio (mémoire unifiée 128-256 Go) : très rapide en bande passante, idéal si vous êtes dans l'écosystème Apple. On paie surtout la vitesse mémoire.

Le piège à éviter. Toutes les boîtes « IA » ne se valent pas : un DGX Spark / GB10 a une bande passante mémoire faible (~273 Go/s) pour son prix (~4 500 €) — mauvais rapport perf/€ pour de l'inférence. Encore une fois : regardez les Go/s, pas le marketing.

Le stack logiciel (gratuit) qui va avec

Le matériel ne sert à rien sans les bons outils. Voici ceux que j'utilise au quotidien, tous open source :

llama.cpp / ik_llama.cpp — moteur d'inférence LLM le plus efficace (CPU et GPU) ; le fork ik gagne +25 à +68 % sur CPU avec le « run-time repack ».
Ollama — la façon la plus simple de lancer un LLM local en une commande, pour débuter.
ComfyUI — génération d'image et de vidéo (SDXL, Flux, Wan 2.2) par graphe de nœuds.
faster-whisper (transcription) et Kokoro / Piper (synthèse vocale) — pour l'audio, en local et hors-ligne.

Les pièges à éviter

Payer pour des téraflops au lieu de mémoire : un 70B ne rentrera jamais dans 12 Go, quelle que soit la puissance.
Sous-dimensionner la RAM système : indispensable pour l'offload CPU des gros modèles (visez 2× la VRAM).
Négliger l'alimentation : une 5090 tire de gros pics — sous-alimenter = instabilité.
Viser le « niveau ChatGPT » en local : un modèle vraiment au niveau des meilleurs (Opus, GPT-5) demande 10 000 à 20 000 € de matériel. En dessous, on vise l'excellent-mais-pas-frontier — et on complète par une API pour le très dur (voir ci-dessous).
Acheter un GPU cher pour un usage ponctuel : dans ce cas, le cloud GPU est souvent plus malin.

La stratégie que je recommande : l'hybride. Une machine locale absorbe 80-90 % des usages (gratuit, privé, illimité) ; on route les 10-20 % de tâches les plus dures vers une API — y compris des offres gratuites. On obtient ~95 % de la qualité du frontier sans investissement lourd.

Où acheter ? Sur une config complète, méfiez-vous d'Amazon dont la commission affiliée est plafonnée : ça n'affecte pas votre prix, mais des revendeurs comme LDLC ou Cdiscount sont tout aussi compétitifs sur les gros paniers. Comparez toujours avant de valider.

Repères de prix (mi-2026, volatils)

Les prix bougent vite (tension sur la mémoire, demande IA). Ordres de grandeur observés mi-2026, à revérifier avant achat :

RTX 5090 : ~3 400 € (en baisse depuis ~4 000 € début 2026) · RTX 5080 : ~1 200 € · RTX 5070 Ti : ~900 €.
RTX 3090 d'occasion : ~800-900 € (très variable selon l'annonce).
Mini-PC mémoire unifiée 128 Go (GMKtec EVO-X2) : ~1 900-2 000 €.

Sources & méthode. Bandes passantes et VRAM : fiches constructeurs et TechPowerUp ; tailles de modèles : cartes Hugging Face et doc llama.cpp ; débits : bancs communautaires (LocalScore, GPU-Benchmarks-on-LLM-Inference) ; prix : relevés revendeurs FR. Les benchmarks que je cite comme « mesurés » viennent de mon propre usage. Tout chiffre « ordre de grandeur » est à vérifier au moment de l'achat.