Monter son assistant IA privé, pas à pas

Un assistant type ChatGPT qui tourne sur votre propre machine : gratuit, sans limite de messages, hors-ligne, et surtout sans envoyer vos données à un tiers. Voici exactement comment je le monte — du modèle à la voix.

Ce qu'il vous faut

Trois scénarios selon votre matériel :

  • Vous avez un GPU récent (8 Go+ de VRAM) ou de la mémoire unifiée : parfait, tout tourne en local. Voir quelle config choisir.
  • Vous avez un PC correct sans gros GPU : possible en CPU avec un modèle MoE (plus lent mais utilisable), ou en visant un petit modèle.
  • Vous n'avez pas le matériel : démarrez sur une API gratuite ou un GPU cloud, vous rapatrierez en local plus tard.
Ce guide suppose un système Linux, macOS ou Windows (WSL2). Les commandes sont identiques ou très proches.

Choisir son modèle

Le modèle doit tenir dans votre mémoire. En quantification Q4_K_M (le standard), voici la correspondance approximative :

Mémoire dispoTaille de modèleExemples 2026
8 Go7-8BLlama 3.x 8B, Qwen3 8B, Mistral 7B
12-16 Go13-14B (ou MoE 30B-A3B)Qwen3 14B, Qwen3-Coder 30B-A3B
24 Go32BQwen3 32B, Gemma 2 27B
48 Go+ / unifiée70B+ / 120B MoELlama 3.x 70B, gpt-oss-120b
Astuce. Privilégiez un modèle MoE (ex. Qwen3-Coder 30B-A3B) : il a la culture d'un gros modèle pour le coût d'un petit. Côté licence pour un usage pro, préférez du permissif (Apache/MIT : Qwen, Mistral, DeepSeek) et méfiez-vous des licences restreintes.

Installer le moteur d'inférence

Le plus simple — Ollama. Une commande pour installer, une pour lancer un modèle :

curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen3        # télécharge puis ouvre un chat

C'est tout : vous discutez déjà avec votre IA dans le terminal. Pour la performance maximale (surtout en CPU), llama.cpp — ou son fork ik_llama.cpp qui gagne +25 à +68 % sur CPU grâce au « run-time repack » — est préférable, au prix d'un peu plus de configuration.

Une vraie interface : Open WebUI

Le terminal, c'est bien pour tester. Pour un usage quotidien type ChatGPT (historique, multi-conversations, comptes), installez Open WebUI via Docker :

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui ghcr.io/open-webui/open-webui:main

Ouvrez http://localhost:3000 : Open WebUI détecte automatiquement Ollama et vous offre une interface complète, dans votre navigateur, 100 % locale.

Lui donner vos documents (RAG)

L'intérêt d'un assistant privé : l'interroger sur vos fichiers sans les envoyer dans le cloud. Open WebUI intègre le RAG (Retrieval-Augmented Generation) : importez vos PDF, notes ou docs dans l'espace « Documents », puis appelez-les dans une conversation avec #nom-du-document. En coulisses, un modèle d'embeddings (ex. bge-m3) indexe vos textes pour retrouver les passages pertinents.

Idéal pour : une base de connaissances interne, de la documentation technique, des cours — interrogeables en langage naturel, hors-ligne.

La voix (optionnel)

Pour parler à votre assistant et l'écouter répondre, ajoutez deux briques open source, gratuites et locales :

  • faster-whisper (reconnaissance vocale) — transcrit votre voix, même hors-ligne ; le modèle distil-large-v3 en int8 est un excellent compromis.
  • Piper ou Kokoro (synthèse vocale) — donnent une voix à l'assistant. Open WebUI sait les brancher en entrée/sortie audio.

Le filet hybride : une API en renfort

Votre modèle local couvre 80-90 % des besoins. Pour les 10-20 % de tâches les plus dures (raisonnement complexe, gros code), branchez une API en repli — y compris gratuite (NVIDIA NIM, Gemini Flash). Open WebUI accepte n'importe quel point d'accès compatible OpenAI ; on bascule d'un modèle local à un modèle distant dans le même menu déroulant.

C'est la philosophie de tout cet espace : local par défaut, cloud pour le pic. Le meilleur des deux mondes, à coût maîtrisé. Détails dans le guide cloud & API.

Pièges courants

  • Modèle trop gros pour la VRAM : il déborde et rame. Descendez d'un cran (modèle plus petit ou quantification plus agressive).
  • Lenteur en CPU : normal, mais un MoE + les bons réglages (threads, NUMA sur serveur) changent tout — j'ai vu un facteur ×100 sur une mauvaise vs bonne configuration.
  • Contexte trop grand : un contexte énorme mange de la mémoire pour le « KV-cache ». Adaptez-le à votre VRAM.
  • Sécurité : si vous exposez Open WebUI hors de votre machine, mettez-le derrière une authentification et un reverse-proxy HTTPS.

Pour aller plus loin

Vous voulez aller plus vite ?

Je peux installer et configurer votre assistant IA privé de A à Z (modèle, interface, RAG sur vos documents, voix, filet hybride), ou former votre équipe à l'utiliser.

Monter mon assistant privé