Intelligence Artificielle 18/06/2026 7 min de lecture

IA locale vs API cloud : à partir de combien de tokens votre GPU devient-il rentable ?

Le calcul honnête du point d'équilibre entre une RTX 5090 à 2 600 € et l'API Claude/GPT en 2026 : amortissement matériel, électricité, tokens/mois. Spoiler : il faut viser 50 à 100 millions de tokens par mois.

« Avec ma propre carte graphique, je n'aurai plus jamais de facture API à payer. » C'est la promesse que tout le monde se raconte avant d'acheter une RTX 5090. La réalité est plus nuancée : entre l'amortissement du matériel, l'électricité française et les baisses de prix continues des API en 2026, le point d'équilibre est beaucoup plus haut qu'on ne l'imagine. Faisons le calcul, chiffres réels à l'appui, sans vendre de rêve.

Les deux colonnes du calcul

Pour comparer honnêtement, il faut mettre face à face deux modèles de coût radicalement différents :

API cloud : coût marginal. Vous payez au token, zéro investissement initial, zéro maintenance. Le coût croît linéairement avec l'usage.
IA locale : coût fixe élevé (le GPU) + un coût marginal très faible (l'électricité). Vous payez d'abord, puis chaque token devient quasi gratuit… une fois le matériel amorti.

Le break-even, c'est le volume mensuel de tokens à partir duquel la deuxième colonne passe sous la première. Tout dépend donc de trois variables : le prix du matériel, le prix de l'électricité, et surtout le prix de l'API que vous remplacez.

Le coût réel d'une machine d'inférence en 2026

Prenons la référence du moment pour l'inférence locale grand public : la RTX 5090 (32 Go GDDR7, 1 792 Go/s de bande passante). C'est le GPU mono-carte le plus rapide de 2026 pour les LLM. Son MSRP était de 1 999 $, mais en pratique le prix de rue en Europe tourne autour de 2 600 à 4 100 € selon disponibilité. Retenons une machine complète réaliste :

RTX 5090 : ~2 800 € (carte custom, prix réaliste mi-2026)
Reste de la machine (CPU, 64 Go RAM DDR5, alim 1000W, carte mère, SSD) : ~1 200 €
Total : ~4 000 €

Amorti sur 3 ans (durée de vie raisonnable avant obsolescence), cela fait ~111 €/mois de coût fixe, avant même d'allumer la machine. C'est le premier chiffre que les enthousiastes oublient systématiquement. Si vous voulez comprendre pourquoi 32 Go de VRAM est le vrai facteur limitant, lisez notre article sur le calcul VRAM/RAM pour faire tourner un LLM.

L'électricité : le coût marginal qu'on sous-estime

La RTX 5090 a un TDP de 575 W, avec une consommation système réelle (GPU + reste) qui frôle facilement 700 W en inférence soutenue. En France, le tarif réglementé EDF en juin 2026 est de 0,194 €/kWh (option base), ou 0,1579 €/kWh en heures creuses.

Une machine qui tourne 700 W consomme 0,7 kWh par heure. Concrètement :

1 heure d'inférence intensive = 0,7 kWh ≈ 0,14 €
4 h/jour, 30 j/mois = 84 kWh ≈ 16 €/mois
Inférence H24 (serveur dédié) = ~504 kWh ≈ 98 €/mois

Point crucial : l'électricité ne se paie que quand le GPU calcule. Un GPU au repos consomme 15-30 W. Donc votre coût électrique dépend entièrement de votre taux d'utilisation réel, pas de la capacité théorique.

Combien de tokens votre GPU produit-il vraiment ?

C'est ici que le débit local entre en jeu. Sur une RTX 5090, avec un modèle comme gpt-oss-120b quantifié en Q4 (qui tient dans les 32 Go), on mesure environ 112 tokens/seconde en génération, et jusqu'à 1 600 tokens/s en traitement du prompt. Sur des modèles plus petits comme Qwen3 8B Q4, on monte à 186 tokens/s.

Faisons le calcul de production maximale à 112 tok/s en génération :

1 heure = 112 × 3600 = ~403 000 tokens de sortie
4 h/jour, 30 j = ~48 millions de tokens/mois
H24 (théorique, irréaliste) = ~290 millions de tokens/mois

Mais attention : ce sont des tokens en flux continu, batch=1. En usage réel (chat, agent, code), votre GPU passe le plus clair de son temps à attendre votre prompt. Le débit utile mensuel d'un usage interactif normal est très loin du maximum théorique.

Le calcul du break-even, modèle contre modèle

C'est l'étape qui démolit la plupart des raisonnements naïfs. Le break-even dépend entièrement du modèle API que vous remplacez. Comparons votre machine locale (111 € fixe + ~16 € électricité = ~127 €/mois pour un usage 4 h/jour) au prix des API en 2026.

Prix output API 2026 (par million de tokens, le poste qui domine la facture) :

GPT-5.4 Nano : 1,25 $/M output (0,20 $ input)
Claude Haiku 4.5 : 5 $/M output (1 $ input)
GPT-5.4 : 15 $/M output (2,50 $ input)
Claude Sonnet 4.6 : 15 $/M output (3 $ input)
Claude Opus 4.8 / GPT-5.5 : 25-30 $/M output (5 $ input)

Combien de tokens output faut-il consommer par mois pour que les 127 €/mois (~138 $) de la machine locale deviennent rentables face à chaque API ? Le break-even output :

vs GPT-5.4 Nano (1,25 $/M) : il faut ~110 millions de tokens/mois. Quasi impossible en usage interactif.
vs Claude Haiku 4.5 (5 $/M) : ~27 millions de tokens/mois.
vs Sonnet 4.6 / GPT-5.4 (15 $/M) : ~9 millions de tokens/mois.
vs Opus 4.8 / GPT-5.5 (25-30 $/M) : ~4,6 à 5,5 millions de tokens/mois.

La leçon est brutale : le local n'a de sens économique que si vous remplaceriez un modèle frontier coûteux. Si votre besoin est satisfait par un GPT-5.4 Nano à 1,25 $/M, l'API restera moins chère sauf à saturer la machine 24/7. Et c'est précisément le piège : un modèle local de 120B ne joue pas dans la même cour qu'Opus 4.8 ou GPT-5.5 sur les tâches difficiles.

Le piège de qualité : vous ne remplacez pas Opus par gpt-oss-120b

Voici l'erreur de raisonnement la plus fréquente. On compare le coût d'un modèle local à celui d'Opus 4.8 pour gonfler le break-even, mais en réalité un modèle open de 120B (gpt-oss, Mistral 3, DeepSeek) se situe en qualité quelque part entre Haiku et Sonnet, pas au niveau d'un frontier fermé. Le break-even honnête, c'est donc 27 millions de tokens/mois (vs Haiku) à 9 millions (vs Sonnet), pas 5 millions.

Pour la plupart des particuliers et freelances, 9 à 27 millions de tokens output par mois représentent un volume considérable : c'est l'équivalent de plusieurs centaines d'heures de génération continue. Très peu d'usages individuels atteignent ce seuil.

Les coûts cachés des deux côtés

Côté local : votre temps de configuration et de maintenance (mises à jour, drivers, quantifications), le bruit, la chaleur, le risque de panne matérielle hors garantie, et l'obsolescence — un nouveau modèle de référence sort tous les 6 mois.
Côté API : les « reasoning tokens » cachés des modèles de raisonnement (GPT-5.5, o-series) facturés en output sans être affichés — une réponse de 500 tokens visibles peut en consommer 2 000+. À l'inverse, le batch (-50 %) et le prompt caching (-90 % sur l'input mis en cache) peuvent diviser votre facture API par deux ou trois.

Verdict : quand le local gagne vraiment

L'IA locale devient économiquement rationnelle dans trois cas, et trois seulement :

Volume industriel constant : si vous générez 30 M+ tokens/mois de façon soutenue (RAG d'entreprise, pipelines batch, classification de masse), le GPU s'amortit vite. À ce volume, le break-even tombe sous l'année.
Confidentialité non négociable : données médicales, juridiques, souveraineté. Ici le calcul économique passe au second plan — vous payez pour ne pas envoyer vos données à un tiers. C'est un coût de conformité, pas d'optimisation.
Apprentissage et expérimentation : si la machine sert aussi au gaming, au fine-tuning, à la génération locale via Ollama et à la R&D, le coût se dilue sur plusieurs usages.

Pour le particulier qui veut juste « ne plus payer d'API », la vérité 2026 est simple : à moins de saturer votre GPU au-delà de 10-30 millions de tokens output par mois, l'API frontier reste moins chère, plus rapide et plus capable. Le local n'est pas un investissement « rentable » par défaut — c'est un choix de souveraineté, de débit garanti ou d'usage massif. Si votre profil correspond, regardez plutôt les machines à grosse VRAM comme le Strix Halo, le DGX Spark ou un Mac Studio M3 Ultra qui font tourner des modèles plus gros, même si moins vite.

Pour aller plus loin : approfondissez le choix matériel avec notre guide VRAM/RAM, découvrez les meilleurs modèles LLM locaux de 2026, et comparez les plateformes dans notre dossier DGX Spark vs RTX et AMD Strix Halo.

Cet article vous a plu ?

Commentaires

Morgann Riu

Expert en cybersécurité et administration Linux. J'aide les entreprises à sécuriser et optimiser leurs infrastructures critiques.

Me contacter

IA locale API LLM coût RTX 5090 break-even self-hosting tokens amortissement

Retour au blog

Les deux colonnes du calcul

Le coût réel d'une machine d'inférence en 2026

L'électricité : le coût marginal qu'on sous-estime

Combien de tokens votre GPU produit-il vraiment ?

Le calcul du break-even, modèle contre modèle

Le piège de qualité : vous ne remplacez pas Opus par gpt-oss-120b

Les coûts cachés des deux côtés

Verdict : quand le local gagne vraiment

Commentaires

Recommandé pour vous

Quantification GGUF : Q4_K_M, Q5_K_M, Q6_K ou Q8_0 — comment choisir sans casser la qualité

RAG local avec Ollama : un assistant qui lit VOS documents, 100% hors-ligne

Runtimes LLM local en 2026 : llama.cpp, Ollama, vLLM, LM Studio, TGI, lequel choisir ?

Fine-tuner un LLM en local avec LoRA et QLoRA : VRAM, datasets et attentes réalistes

Tuto associé

Aller plus loin

Checklist Sécurité Linux