Monter son assistant IA privé, pas à pas

Un assistant type ChatGPT qui tourne sur votre propre machine : gratuit, sans limite de messages, hors-ligne, et surtout sans envoyer vos données à un tiers. Voici exactement comment je le monte — du modèle à la voix.

Ce qu'il vous faut

Trois scénarios selon votre matériel :

Vous avez un GPU récent (8 Go+ de VRAM) ou de la mémoire unifiée : parfait, tout tourne en local. Voir quelle config choisir.
Vous avez un PC correct sans gros GPU : possible en CPU avec un modèle MoE (plus lent mais utilisable), ou en visant un petit modèle.
Vous n'avez pas le matériel : démarrez sur une API gratuite ou un GPU cloud, vous rapatrierez en local plus tard.

Ce guide suppose un système Linux, macOS ou Windows (WSL2). Les commandes sont identiques ou très proches.

Choisir son modèle

Le modèle doit tenir dans votre mémoire. En quantification Q4_K_M (le standard), voici la correspondance approximative :

Mémoire dispo	Taille de modèle	Exemples 2026
8 Go	7-8B	Llama 3.x 8B, Qwen3 8B, Mistral 7B
12-16 Go	13-14B (ou MoE 30B-A3B)	Qwen3 14B, Qwen3-Coder 30B-A3B
24 Go	32B	Qwen3 32B, Gemma 2 27B
48 Go+ / unifiée	70B+ / 120B MoE	Llama 3.x 70B, gpt-oss-120b

Astuce. Privilégiez un modèle MoE (ex. Qwen3-Coder 30B-A3B) : il a la culture d'un gros modèle pour le coût d'un petit. Côté licence pour un usage pro, préférez du permissif (Apache/MIT : Qwen, Mistral, DeepSeek) et méfiez-vous des licences restreintes.

Installer le moteur d'inférence

Le plus simple — Ollama. Une commande pour installer, une pour lancer un modèle :

curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen3        # télécharge puis ouvre un chat

C'est tout : vous discutez déjà avec votre IA dans le terminal. Pour la performance maximale (surtout en CPU), llama.cpp — ou son fork ik_llama.cpp qui gagne +25 à +68 % sur CPU grâce au « run-time repack » — est préférable, au prix d'un peu plus de configuration.

Une vraie interface : Open WebUI

Le terminal, c'est bien pour tester. Pour un usage quotidien type ChatGPT (historique, multi-conversations, comptes), installez Open WebUI via Docker :

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui ghcr.io/open-webui/open-webui:main

Ouvrez http://localhost:3000 : Open WebUI détecte automatiquement Ollama et vous offre une interface complète, dans votre navigateur, 100 % locale.

Lui donner vos documents (RAG)

L'intérêt d'un assistant privé : l'interroger sur vos fichiers sans les envoyer dans le cloud. Open WebUI intègre le RAG (Retrieval-Augmented Generation) : importez vos PDF, notes ou docs dans l'espace « Documents », puis appelez-les dans une conversation avec #nom-du-document. En coulisses, un modèle d'embeddings (ex. bge-m3) indexe vos textes pour retrouver les passages pertinents.

Idéal pour : une base de connaissances interne, de la documentation technique, des cours — interrogeables en langage naturel, hors-ligne.

La voix (optionnel)

Pour parler à votre assistant et l'écouter répondre, ajoutez deux briques open source, gratuites et locales :

faster-whisper (reconnaissance vocale) — transcrit votre voix, même hors-ligne ; le modèle distil-large-v3 en int8 est un excellent compromis.
Piper ou Kokoro (synthèse vocale) — donnent une voix à l'assistant. Open WebUI sait les brancher en entrée/sortie audio.

Le filet hybride : une API en renfort

Votre modèle local couvre 80-90 % des besoins. Pour les 10-20 % de tâches les plus dures (raisonnement complexe, gros code), branchez une API en repli — y compris gratuite (NVIDIA NIM, Gemini Flash). Open WebUI accepte n'importe quel point d'accès compatible OpenAI ; on bascule d'un modèle local à un modèle distant dans le même menu déroulant.

C'est la philosophie de tout cet espace : local par défaut, cloud pour le pic. Le meilleur des deux mondes, à coût maîtrisé. Détails dans le guide cloud & API.

Pièges courants

Modèle trop gros pour la VRAM : il déborde et rame. Descendez d'un cran (modèle plus petit ou quantification plus agressive).
Lenteur en CPU : normal, mais un MoE + les bons réglages (threads, NUMA sur serveur) changent tout — j'ai vu un facteur ×100 sur une mauvaise vs bonne configuration.
Contexte trop grand : un contexte énorme mange de la mémoire pour le « KV-cache ». Adaptez-le à votre VRAM.
Sécurité : si vous exposez Open WebUI hors de votre machine, mettez-le derrière une authentification et un reverse-proxy HTTPS.

Pour aller plus loin

Documentation officielle Ollama, Open WebUI et llama.cpp.
Catalogue de modèles : Hugging Face (filtrez par taille et licence).

Vous voulez aller plus vite ?

Je peux installer et configurer votre assistant IA privé de A à Z (modèle, interface, RAG sur vos documents, voix, filet hybride), ou former votre équipe à l'utiliser.

Monter mon assistant privé

Ce qu'il vous faut

1Choisir son modèle

2Installer le moteur d'inférence

3Une vraie interface : Open WebUI

4Lui donner vos documents (RAG)

5La voix (optionnel)

6Le filet hybride : une API en renfort