Louer un GPU dans le cloud pour l'IA

Acheter une RTX 5090 pour l'allumer trois soirs par mois, c'est de l'argent immobilisé. Mais avant même de louer, une API gratuite suffit souvent. Voici comment arbitrer entre local, API et location.

Étape 0 : avez-vous seulement besoin d'un GPU ?

Le réflexe le plus rentable est souvent de ne pas louer de GPU du tout. Pour de l'inférence (utiliser un modèle, pas l'entraîner), des API gratuites ou quasi-gratuites donnent accès à des modèles énormes sans gérer la moindre machine :

  • NVIDIA NIM (build.nvidia.com) — gratuit, 40 requêtes/min par modèle + 1 000 crédits d'inférence offerts à l'inscription. Accès à des modèles 480B à 1 000B+ (Qwen3-Coder 480B, Kimi K2 1T, GPT-OSS 120B) ; j'y fais générer du code complexe en ~20 s, sans aucun matériel. (À noter : les requêtes peuvent être utilisées pour l'entraînement — à éviter pour des données sensibles.)
  • Groq — inférence ultra-rapide, palier gratuit (~30 req/min ; jusqu'à ~14 000 req/jour sur Llama 8B).
  • OpenRouter — agrège des dizaines de modèles dont des :free (20 req/min ; 50/jour, ou 1 000/jour dès 10 $ de crédits achetés).
  • Google Gemini — palier gratuit (Flash) intéressant, mais Google ne publie plus les quotas en statique : vérifiez les limites du moment dans Google AI Studio.
Ma stratégie : l'hybride routeur. Une machine locale absorbe 80-90 % des requêtes (gratuit, privé), et on route seulement les tâches les plus dures vers une API frontier. Résultat : ~95 % de la qualité des meilleurs modèles, pour quelques euros par mois. On ne loue un vrai GPU que pour ce que ni le local ni les API ne couvrent.

Quand louer un GPU est le bon choix

La location à l'heure devient pertinente quand l'API ne suffit pas :

  • Entraînement / fine-tuning : entraîner un LoRA, fine-tuner un modèle — il faut un vrai GPU, pas une API d'inférence.
  • Gros modèles ou multi-GPU : besoin d'un H100 80 Go (ou de plusieurs) que vous ne possédez pas.
  • Données sensibles : vous voulez maîtriser où tournent vos données, sans les envoyer à une API tierce.
  • Charges en pics : un gros batch ponctuel, puis plus rien — on paie à l'heure, on éteint.

L'achat, lui, gagne quand vous faites tourner de l'IA tous les jours : au-delà de quelques centaines d'heures par an, le matériel s'amortit (voir le guide config PC).

Règle simple. En dessous de ~10 h de calcul lourd par mois, restez en API ou en cloud à l'heure. Au-dessus, faites le calcul du point d'amortissement face à un achat.

Les plateformes que je recommande

Je ne liste ici que des plateformes que l'on peut utiliser sérieusement. Le marché « spot » (Vast.ai) est le moins cher mais demande un peu de rigueur ; les plateformes managées (RunPod) sont plus simples ; OVHcloud rassure sur l'hébergement européen.

PlateformeIdéale pourModèle
Vast.ai Le moins cher du marché (place de marché de GPU) À l'heure, prix spot Découvrir
RunPod Simplicité, Serverless, déploiement rapide À l'heure / serverless Découvrir
OVHcloud Hébergement français / RGPD, facturation pro À l'heure / mensuel Découvrir
Vultr Infra cloud généraliste avec GPU à la demande À l'heure Découvrir

Prix indicatif à l'heure (on-demand, mi-2026)

GPURunPodVast.ai (dès)OVHcloudLambda
RTX 40900,69 $/h0,36 $/h
A100 80 Go1,39 $/h0,53 $/h2,79 $/h
H100 80 Go2,89 $/h~0,90-2,00 $/hdès 2,99 $/h3,29 $/h
Lecture. Pour un H100 isolé et fiable, RunPod (~2,89 $/h) est le meilleur choix. Vast.ai casse les prix mais c'est une place de marché (qualité d'hôte hétérogène). OVHcloud rassure sur l'hébergement UE. Prix on-demand indicatifs (hors stockage/egress), volatils — vérifiez la page tarifs du fournisseur. Sources : pages pricing officielles RunPod, Vast.ai, OVHcloud, Lambda.
Honnêteté. D'autres acteurs (Lambda, Scaleway, Together…) sont très bien mais ne proposent pas de programme d'affiliation : je ne mets donc pas de lien tracé vers eux. Ça n'enlève rien à leur qualité — choisissez selon votre besoin, pas selon mes liens.

Conseils pour ne pas brûler du budget

  • Choisissez la région la moins chère et un GPU juste assez grand pour votre modèle (la VRAM nécessaire est la même qu'en local).
  • Préparez votre environnement (image Docker, données) avant de démarrer l'instance — on paie le GPU dès l'allumage.
  • Coupez l'instance dès la fin du job : un GPU oublié allumé une nuit coûte cher.
  • Pour de l'inférence légère et régulière, comparez avec une API (souvent moins cher qu'un GPU dédié allumé en continu).

Un entraînement ou un déploiement à lancer ?

Je peux vous aider à choisir entre API gratuite, location à l'heure et achat, dimensionner l'instance et estimer le coût avant de lancer — pour éviter les mauvaises surprises de facturation.

Cadrer mon besoin cloud