Quelle config PC pour faire tourner l'IA en local
La bonne question n'est pas « quel est le GPU le plus puissant » mais « combien de mémoire pour le modèle que je veux faire tourner, et à quelle bande passante ». Voici comment arbitrer, avec des chiffres que j'ai mesurés en vrai.
La règle n°1 : la mémoire avant la vitesse
Pour l'inférence (faire tourner un modèle déjà entraîné), c'est la quantité de mémoire qui décide ce que vous pouvez charger, pas la puissance brute. Un modèle qui ne tient pas en VRAM déborde sur la RAM système et s'effondre en vitesse.
Ordre de grandeur en quantification Q4_K_M (le bon compromis qualité/taille), poids seuls : ~4-5 Go pour un modèle 8B, ~7-8 Go pour un 13-14B, ~19 Go pour un 32B, ~40 Go pour un 70B. À budget égal, une carte avec plus de VRAM (même un peu moins rapide) est presque toujours le meilleur choix pour l'IA — c'est pourquoi une RTX 3090 d'occasion (24 Go) reste une affaire redoutable.
Le vrai facteur de vitesse : la bande passante mémoire
Une fois le modèle chargé, la vitesse de génération est dictée par la bande passante mémoire (Go/s), pas par les TFLOPs. C'est contre-intuitif, mais ça explique tout : une carte « moins puissante » avec une mémoire plus rapide génère plus de tokens par seconde qu'une carte plus musclée mais étranglée en mémoire.
Deuxième levier décisif : les modèles « MoE » (Mixture of Experts). Un modèle comme Qwen3-Coder 30B n'active que ~3 milliards de paramètres par token (« 30B-A3B ») — il a la culture d'un gros modèle mais le coût de calcul d'un petit. C'est ce qui rend l'IA locale viable même sans GPU monstrueux.
| Puce | Mémoire | Bande passante | Lecture |
|---|---|---|---|
| RTX 5090 | 32 Go GDDR7 | ~1 792 Go/s | la plus rapide, et la plus chère |
| RTX 4090 | 24 Go | ~1 008 Go/s | référence haut de gamme |
| RTX 5080 | 16 Go GDDR7 | ~960 Go/s | rapide mais VRAM limitée |
| RTX 3090 (occasion) | 24 Go | ~936 Go/s | le roi du VRAM/€ |
| RTX 5070 Ti | 16 Go GDDR7 | ~896 Go/s | bon compromis milieu de gamme |
| Mac Studio M3 Ultra | jusqu'à 512 Go unifiés | ~819 Go/s | énorme mémoire, rapide |
| RTX 3060 | 12 Go | ~360 Go/s | entrée de gamme |
| DGX Spark (GB10) | 128 Go unifiés | ~273 Go/s | cher pour la bande passante |
| Strix Halo (Ryzen AI Max+ 395) | 128 Go unifiés | ~256 Go/s (~215 réel) | énorme capacité, débit modéré |
Trois paliers selon votre objectif
Palier 1 — Découverte
~ 900 €Objectif : LLM 7-8B quantifié, Stable Diffusion / SDXL, transcription Whisper. Pour apprendre et prototyper.
Palier 2 — Confort
~ 1 700 €Objectif : LLM 14-32B quantifié, Flux / SDXL rapides, vidéo courte. Le meilleur rapport plaisir/prix pour un usage régulier.
Palier 3 — Workstation
3 200 € +Objectif : 70B quantifié (avec offload), entraînement de LoRA, génération vidéo (Wan, etc.). Pour produire sérieusement.
À quoi s'attendre, concrètement (tokens/s)
Quelques repères de débit en génération mesurés par la communauté (Q4, ordre de grandeur) :
- RTX 4060 Ti → modèle 8B : ~48 tok/s (très confortable).
- RTX 3090 → modèle 8B : ~87 tok/s ; RTX 4090 → 70B : ~54 tok/s.
- Strix Halo (mémoire unifiée) → gpt-oss-120b : ~30-52 tok/s.
L'alternative que peu de gens connaissent : la mémoire unifiée
Pour faire tourner de gros modèles (100B+), une autre voie que le GPU à 2 000 € existe : les machines à mémoire unifiée, où le processeur et la partie graphique partagent une grande réserve de RAM rapide.
- Mini-PC Strix Halo 128 Go (Ryzen AI Max+ 395, ~1 900 €) : fait tourner un modèle 120B (gpt-oss-120b) à ~40 tokens/s — impossible sur une carte 16 Go. Meilleur rapport intelligence/euro du moment.
- Mac Studio (mémoire unifiée 128-256 Go) : très rapide en bande passante, idéal si vous êtes dans l'écosystème Apple. On paie surtout la vitesse mémoire.
Le stack logiciel (gratuit) qui va avec
Le matériel ne sert à rien sans les bons outils. Voici ceux que j'utilise au quotidien, tous open source :
- llama.cpp / ik_llama.cpp — moteur d'inférence LLM le plus efficace (CPU et GPU) ; le fork
ikgagne +25 à +68 % sur CPU avec le « run-time repack ». - Ollama — la façon la plus simple de lancer un LLM local en une commande, pour débuter.
- ComfyUI — génération d'image et de vidéo (SDXL, Flux, Wan 2.2) par graphe de nœuds.
- faster-whisper (transcription) et Kokoro / Piper (synthèse vocale) — pour l'audio, en local et hors-ligne.
Les pièges à éviter
- Payer pour des téraflops au lieu de mémoire : un 70B ne rentrera jamais dans 12 Go, quelle que soit la puissance.
- Sous-dimensionner la RAM système : indispensable pour l'offload CPU des gros modèles (visez 2× la VRAM).
- Négliger l'alimentation : une 5090 tire de gros pics — sous-alimenter = instabilité.
- Viser le « niveau ChatGPT » en local : un modèle vraiment au niveau des meilleurs (Opus, GPT-5) demande 10 000 à 20 000 € de matériel. En dessous, on vise l'excellent-mais-pas-frontier — et on complète par une API pour le très dur (voir ci-dessous).
- Acheter un GPU cher pour un usage ponctuel : dans ce cas, le cloud GPU est souvent plus malin.
Repères de prix (mi-2026, volatils)
Les prix bougent vite (tension sur la mémoire, demande IA). Ordres de grandeur observés mi-2026, à revérifier avant achat :
- RTX 5090 : ~3 400 € (en baisse depuis ~4 000 € début 2026) · RTX 5080 : ~1 200 € · RTX 5070 Ti : ~900 €.
- RTX 3090 d'occasion : ~800-900 € (très variable selon l'annonce).
- Mini-PC mémoire unifiée 128 Go (GMKtec EVO-X2) : ~1 900-2 000 €.
Sources & méthode. Bandes passantes et VRAM : fiches constructeurs et TechPowerUp ; tailles de modèles : cartes Hugging Face et doc llama.cpp ; débits : bancs communautaires (LocalScore, GPU-Benchmarks-on-LLM-Inference) ; prix : relevés revendeurs FR. Les benchmarks que je cite comme « mesurés » viennent de mon propre usage. Tout chiffre « ordre de grandeur » est à vérifier au moment de l'achat.
Pas sûr de votre choix ?
Je peux valider votre configuration, l'adapter à vos modèles cibles, et monter le stack logiciel (llama.cpp, ComfyUI, Ollama) avec vous.
Faire valider ma config