Intelligence Artificielle 18/06/2026 7 min de lecture

Transcription audio 100% locale : Whisper et faster-whisper auto-hébergés

Whisper en local, sans cloud : modèles, perfs GPU/CPU, temps réel vs batch, précision (WER) et confidentialité. Avec faster-whisper, large-v3-turbo tient dans 1,5 Go de VRAM en INT8.

Envoyer des réunions, des consultations médicales ou des entretiens RH chez un fournisseur cloud de transcription est, pour beaucoup d'organisations, un non-sujet : c'est interdit. La bonne nouvelle, c'est que la reconnaissance vocale de qualité production tourne désormais entièrement en local, sur du matériel grand public, avec une précision à un cheveu du meilleur service payant. Whisper d'OpenAI est open source (licence MIT), et son écosystème optimisé — au premier rang duquel faster-whisper — rend l'auto-hébergement non seulement viable, mais souvent plus rapide que les API. Voici un état des lieux honnête, chiffres réels à l'appui.

Whisper : le modèle, ses tailles, ses pièges

Whisper est un modèle encoder-decoder multilingue entraîné sur 680 000 heures d'audio. Il existe en plusieurs tailles, et choisir la bonne est la décision la plus importante. La famille classique va de tiny (39M paramètres) à large-v3 (1,55 milliard de paramètres). Mais le vrai changement de 2024-2026, c'est l'arrivée de large-v3-turbo.

Turbo est une version élaguée de large-v3 : le décodeur passe de 32 à 4 couches, faisant chuter le nombre de paramètres de 1,55 milliard à 809 millions, tout en conservant l'encodeur identique (qui fait le gros du travail acoustique). Résultat : 8× plus rapide que large-v3, pour une dégradation de précision de seulement 0,3 à 0,7 point de WER sur l'anglais. Le piège : turbo n'a pas été entraîné pour la traduction (speech-to-text d'une langue vers l'anglais). Pour traduire, restez sur large-v3 ou medium.

tiny / base : pour de l'embarqué (Raspberry Pi), du push-to-talk, des commandes vocales. tiny tourne à ~15× temps réel sur un Pi 5.
small / medium : bon compromis CPU pour des langues non-anglaises sans GPU.
large-v3 : référence de précision, multilingue, et le seul à viser pour la traduction.
large-v3-turbo : le défaut raisonnable en 2026 pour 99% des usages anglais/multilingues de transcription.

faster-whisper : pourquoi c'est la vraie implémentation à utiliser

L'implémentation officielle de Whisper en PyTorch fonctionne, mais elle est lente et gourmande. faster-whisper (par SYSTRAN) réimplémente l'inférence sur CTranslate2, un moteur optimisé : mêmes modèles, même précision, mais jusqu'à 4× plus rapide sur GPU et 2× sur CPU, avec une empreinte mémoire bien moindre grâce à la quantification INT8/FP16, aux noyaux d'attention fusionnés et aux chemins CPU vectorisés (SIMD).

Le chiffre qui change tout : large-v3-turbo en INT8 ne consomme que ~1,5 Go de VRAM, contre ~6 Go en FP16 et ~10 Go pour large-v3 standard. Autrement dit, le meilleur compromis vitesse/précision tient sur un GPU à 2 Go. La quantification INT8 ne fait quasiment pas bouger le WER — c'est le repas gratuit de la transcription locale.

Si votre cible est différente, gardez en tête l'alternative : whisper.cpp, une réimplémentation pure C/C++ sans Python ni CUDA, idéale pour l'embarqué et le temps réel (streaming, VAD intégrée). Sur Apple Silicon, whisper.cpp avec Metal atteint ~10× temps réel sur large-v3, contre ~3× pour faster-whisper en CPU pur. Règle générale : faster-whisper pour le batch et le GPU, whisper.cpp pour le temps réel CPU et l'embarqué.

Performances réelles : GPU vs CPU

Soyons concrets. Le « facteur temps réel » (×RT) indique combien de secondes d'audio sont transcrites par seconde de calcul. Plus c'est haut, mieux c'est.

RTX 4090 (24 Go) : un fichier de 10 minutes transcrit en moins de 8 secondes, soit ~75× temps réel avec large-v3. Avec batching et Flash Attention 2 (insanely-fast-whisper), on monte à 70×–100× temps réel. Une 4090 bien gérée encaisse 10+ flux temps réel simultanés.
RTX 3060 (12 Go) : le minimum réaliste pour faire tourner large-v3 en temps réel avec faster-whisper et INT8.
CPU (faster-whisper) : le modèle tiny atteint ~20× temps réel en INT8. Pour large-v3-turbo en INT8, comptez plutôt 8–12× temps réel sur un CPU moderne — largement suffisant pour traiter des heures d'audio en batch.
Latence streaming : sur RTX 4090 en INT8, le décodeur 4 couches de turbo ramène le temps d'inférence par chunk d'environ 40 ms (large-v3) à ~22 ms.

La leçon : pour de la transcription batch (podcasts, réunions enregistrées, archives), même un CPU correct suffit. Pour du temps réel multi-flux (sous-titrage live, call center), un GPU devient nécessaire, mais une seule RTX 4090 fait le travail d'une petite ferme cloud. Le dimensionnement mémoire suit la logique habituelle du calcul IA, que nous détaillons dans notre guide VRAM/RAM pour LLM local.

Précision : ne pas confondre WER brut et réalité

Sur l'anglais propre (LibriSpeech), large-v3 et turbo tournent autour de 3–4% de WER. Les variantes distillées (distil-whisper) restent à moins de 1% de WER des modèles complets sur des jeux hors-distribution, tout en étant ~6× plus rapides et ~50% plus petites — mais elles sont uniquement anglophones.

Attention au piège métrologique : sur du WER « brut » multilingue, les gros modèles peuvent paraître moins bons, simplement parce qu'ils identifient parfois la mauvaise langue selon l'accent du locuteur. Une fois ces erreurs d'identification de langue filtrées, large-v2/v3 reprennent leur avantage attendu. Bonus de distil-whisper : moins d'hallucinations (1,3× moins de répétitions de 5-grammes, -2,1% d'erreurs d'insertion). Pour du multilingue, forcez la langue explicitement (paramètre language=) plutôt que de laisser l'auto-détection deviner — c'est le réglage qui élimine le plus d'erreurs en pratique.

Confidentialité : le vrai argument

C'est là que le local n'a pas de concurrent. Un audio qui ne quitte jamais votre machine, c'est :

RGPD/HDS par construction : aucune donnée santé, juridique ou RH ne transite par un tiers. Pas de DPA à négocier, pas de transfert hors-UE à justifier.
Coût marginal nul : une fois le matériel amorti, transcrire 1 000 heures coûte de l'électricité, pas un abonnement à la minute.
Pas de rate limit, pas de fournisseur qui change ses CGU ou déprécie un modèle du jour au lendemain.
Souveraineté : même logique que celle qui pousse à privilégier des modèles open source européens côté LLM.

Mise en pratique : du zéro à la transcription en 5 minutes

Installation et premier run avec faster-whisper :

pip install faster-whisper
En Python : from faster_whisper import WhisperModel puis model = WhisperModel("large-v3-turbo", device="cuda", compute_type="int8_float16") (GPU) ou compute_type="int8" (CPU).
Transcription : segments, info = model.transcribe("reunion.mp3", language="fr", vad_filter=True) — le filtre VAD (Silero) coupe les silences et réduit drastiquement les hallucinations.
Pour du batch massif, utilisez l'API BatchedInferencePipeline qui sature le GPU.

Côté matériel, n'importe quelle machine d'inférence IA locale convient. Un GPU NVIDIA grand public reste le plus simple à mettre en œuvre, mais les solutions à mémoire unifiée comme AMD Strix Halo ou un Mac Studio M4 Max sont d'excellentes plateformes pour faire cohabiter Whisper et un LLM local sur la même machine. Pour orchestrer le tout (résumé automatique post-transcription, par exemple), branchez la sortie sur Ollama comme décrit dans notre article sur les intégrations Ollama locales.

Verdict

En 2026, l'auto-hébergement de Whisper n'est plus un compromis : c'est souvent le meilleur choix tout court. Le trio gagnant pour 90% des cas : faster-whisper + large-v3-turbo + INT8. Vous obtenez une précision à ~3–4% de WER, 8–12× temps réel sur CPU ou 70–100× sur une RTX 4090, le tout dans 1,5 Go de VRAM, sans qu'aucune donnée ne quitte votre infrastructure. Réservez large-v3 pleine taille aux cas de traduction ou de précision maximale multilingue, et whisper.cpp à l'embarqué et au streaming CPU. Le cloud de transcription ne se justifie plus que pour les pics de charge ponctuels — et encore.

Pour aller plus loin : notre calcul VRAM/RAM pour l'IA locale, le comparatif NVIDIA DGX Spark pour l'IA de bureau, et notre tour d'horizon des nouveaux modèles LLM locaux 2026 pour coupler transcription et résumé automatique.

Cet article vous a plu ?

Commentaires

Morgann Riu

Expert en cybersécurité et administration Linux. J'aide les entreprises à sécuriser et optimiser leurs infrastructures critiques.

Me contacter

Whisper faster-whisper Transcription STT IA locale CTranslate2 Confidentialité GPU

Retour au blog

Whisper : le modèle, ses tailles, ses pièges

faster-whisper : pourquoi c'est la vraie implémentation à utiliser

Performances réelles : GPU vs CPU

Précision : ne pas confondre WER brut et réalité

Confidentialité : le vrai argument

Mise en pratique : du zéro à la transcription en 5 minutes

Verdict

Commentaires

Recommandé pour vous

Quantification GGUF : Q4_K_M, Q5_K_M, Q6_K ou Q8_0 — comment choisir sans casser la qualité

RAG local avec Ollama : un assistant qui lit VOS documents, 100% hors-ligne

Runtimes LLM local en 2026 : llama.cpp, Ollama, vLLM, LM Studio, TGI, lequel choisir ?

Fine-tuner un LLM en local avec LoRA et QLoRA : VRAM, datasets et attentes réalistes

Tuto associé

Aller plus loin

Checklist Sécurité Linux