Monter son assistant IA privé, pas à pas
Un assistant type ChatGPT qui tourne sur votre propre machine : gratuit, sans limite de messages, hors-ligne, et surtout sans envoyer vos données à un tiers. Voici exactement comment je le monte — du modèle à la voix.
Ce qu'il vous faut
Trois scénarios selon votre matériel :
- Vous avez un GPU récent (8 Go+ de VRAM) ou de la mémoire unifiée : parfait, tout tourne en local. Voir quelle config choisir.
- Vous avez un PC correct sans gros GPU : possible en CPU avec un modèle MoE (plus lent mais utilisable), ou en visant un petit modèle.
- Vous n'avez pas le matériel : démarrez sur une API gratuite ou un GPU cloud, vous rapatrierez en local plus tard.
Choisir son modèle
Le modèle doit tenir dans votre mémoire. En quantification Q4_K_M (le standard), voici la correspondance approximative :
| Mémoire dispo | Taille de modèle | Exemples 2026 |
|---|---|---|
| 8 Go | 7-8B | Llama 3.x 8B, Qwen3 8B, Mistral 7B |
| 12-16 Go | 13-14B (ou MoE 30B-A3B) | Qwen3 14B, Qwen3-Coder 30B-A3B |
| 24 Go | 32B | Qwen3 32B, Gemma 2 27B |
| 48 Go+ / unifiée | 70B+ / 120B MoE | Llama 3.x 70B, gpt-oss-120b |
Installer le moteur d'inférence
Le plus simple — Ollama. Une commande pour installer, une pour lancer un modèle :
curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen3 # télécharge puis ouvre un chat
C'est tout : vous discutez déjà avec votre IA dans le terminal. Pour la performance maximale (surtout en CPU), llama.cpp — ou son fork ik_llama.cpp qui gagne +25 à +68 % sur CPU grâce au « run-time repack » — est préférable, au prix d'un peu plus de configuration.
Une vraie interface : Open WebUI
Le terminal, c'est bien pour tester. Pour un usage quotidien type ChatGPT (historique, multi-conversations, comptes), installez Open WebUI via Docker :
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui ghcr.io/open-webui/open-webui:main
Ouvrez http://localhost:3000 : Open WebUI détecte automatiquement Ollama et vous offre une interface complète, dans votre navigateur, 100 % locale.
Lui donner vos documents (RAG)
L'intérêt d'un assistant privé : l'interroger sur vos fichiers sans les envoyer dans le cloud. Open WebUI intègre le RAG (Retrieval-Augmented Generation) : importez vos PDF, notes ou docs dans l'espace « Documents », puis appelez-les dans une conversation avec #nom-du-document. En coulisses, un modèle d'embeddings (ex. bge-m3) indexe vos textes pour retrouver les passages pertinents.
La voix (optionnel)
Pour parler à votre assistant et l'écouter répondre, ajoutez deux briques open source, gratuites et locales :
- faster-whisper (reconnaissance vocale) — transcrit votre voix, même hors-ligne ; le modèle distil-large-v3 en int8 est un excellent compromis.
- Piper ou Kokoro (synthèse vocale) — donnent une voix à l'assistant. Open WebUI sait les brancher en entrée/sortie audio.
Le filet hybride : une API en renfort
Votre modèle local couvre 80-90 % des besoins. Pour les 10-20 % de tâches les plus dures (raisonnement complexe, gros code), branchez une API en repli — y compris gratuite (NVIDIA NIM, Gemini Flash). Open WebUI accepte n'importe quel point d'accès compatible OpenAI ; on bascule d'un modèle local à un modèle distant dans le même menu déroulant.
C'est la philosophie de tout cet espace : local par défaut, cloud pour le pic. Le meilleur des deux mondes, à coût maîtrisé. Détails dans le guide cloud & API.
Pièges courants
- Modèle trop gros pour la VRAM : il déborde et rame. Descendez d'un cran (modèle plus petit ou quantification plus agressive).
- Lenteur en CPU : normal, mais un MoE + les bons réglages (threads, NUMA sur serveur) changent tout — j'ai vu un facteur ×100 sur une mauvaise vs bonne configuration.
- Contexte trop grand : un contexte énorme mange de la mémoire pour le « KV-cache ». Adaptez-le à votre VRAM.
- Sécurité : si vous exposez Open WebUI hors de votre machine, mettez-le derrière une authentification et un reverse-proxy HTTPS.
Pour aller plus loin
- Documentation officielle Ollama, Open WebUI et llama.cpp.
- Catalogue de modèles : Hugging Face (filtrez par taille et licence).
Vous voulez aller plus vite ?
Je peux installer et configurer votre assistant IA privé de A à Z (modèle, interface, RAG sur vos documents, voix, filet hybride), ou former votre équipe à l'utiliser.
Monter mon assistant privé