Louer un GPU dans le cloud pour l'IA
Acheter une RTX 5090 pour l'allumer trois soirs par mois, c'est de l'argent immobilisé. Mais avant même de louer, une API gratuite suffit souvent. Voici comment arbitrer entre local, API et location.
Étape 0 : avez-vous seulement besoin d'un GPU ?
Le réflexe le plus rentable est souvent de ne pas louer de GPU du tout. Pour de l'inférence (utiliser un modèle, pas l'entraîner), des API gratuites ou quasi-gratuites donnent accès à des modèles énormes sans gérer la moindre machine :
- NVIDIA NIM (build.nvidia.com) — gratuit, 40 requêtes/min par modèle + 1 000 crédits d'inférence offerts à l'inscription. Accès à des modèles 480B à 1 000B+ (Qwen3-Coder 480B, Kimi K2 1T, GPT-OSS 120B) ; j'y fais générer du code complexe en ~20 s, sans aucun matériel. (À noter : les requêtes peuvent être utilisées pour l'entraînement — à éviter pour des données sensibles.)
- Groq — inférence ultra-rapide, palier gratuit (~30 req/min ; jusqu'à ~14 000 req/jour sur Llama 8B).
- OpenRouter — agrège des dizaines de modèles dont des
:free(20 req/min ; 50/jour, ou 1 000/jour dès 10 $ de crédits achetés). - Google Gemini — palier gratuit (Flash) intéressant, mais Google ne publie plus les quotas en statique : vérifiez les limites du moment dans Google AI Studio.
Quand louer un GPU est le bon choix
La location à l'heure devient pertinente quand l'API ne suffit pas :
- Entraînement / fine-tuning : entraîner un LoRA, fine-tuner un modèle — il faut un vrai GPU, pas une API d'inférence.
- Gros modèles ou multi-GPU : besoin d'un H100 80 Go (ou de plusieurs) que vous ne possédez pas.
- Données sensibles : vous voulez maîtriser où tournent vos données, sans les envoyer à une API tierce.
- Charges en pics : un gros batch ponctuel, puis plus rien — on paie à l'heure, on éteint.
L'achat, lui, gagne quand vous faites tourner de l'IA tous les jours : au-delà de quelques centaines d'heures par an, le matériel s'amortit (voir le guide config PC).
Les plateformes que je recommande
Je ne liste ici que des plateformes que l'on peut utiliser sérieusement. Le marché « spot » (Vast.ai) est le moins cher mais demande un peu de rigueur ; les plateformes managées (RunPod) sont plus simples ; OVHcloud rassure sur l'hébergement européen.
| Plateforme | Idéale pour | Modèle | |
|---|---|---|---|
| Vast.ai | Le moins cher du marché (place de marché de GPU) | À l'heure, prix spot | Découvrir |
| RunPod | Simplicité, Serverless, déploiement rapide | À l'heure / serverless | Découvrir |
| OVHcloud | Hébergement français / RGPD, facturation pro | À l'heure / mensuel | Découvrir |
| Vultr | Infra cloud généraliste avec GPU à la demande | À l'heure | Découvrir |
Prix indicatif à l'heure (on-demand, mi-2026)
| GPU | RunPod | Vast.ai (dès) | OVHcloud | Lambda |
|---|---|---|---|---|
| RTX 4090 | 0,69 $/h | 0,36 $/h | — | — |
| A100 80 Go | 1,39 $/h | 0,53 $/h | — | 2,79 $/h |
| H100 80 Go | 2,89 $/h | ~0,90-2,00 $/h | dès 2,99 $/h | 3,29 $/h |
Conseils pour ne pas brûler du budget
- Choisissez la région la moins chère et un GPU juste assez grand pour votre modèle (la VRAM nécessaire est la même qu'en local).
- Préparez votre environnement (image Docker, données) avant de démarrer l'instance — on paie le GPU dès l'allumage.
- Coupez l'instance dès la fin du job : un GPU oublié allumé une nuit coûte cher.
- Pour de l'inférence légère et régulière, comparez avec une API (souvent moins cher qu'un GPU dédié allumé en continu).
Un entraînement ou un déploiement à lancer ?
Je peux vous aider à choisir entre API gratuite, location à l'heure et achat, dimensionner l'instance et estimer le coût avant de lancer — pour éviter les mauvaises surprises de facturation.
Cadrer mon besoin cloud