Privacy, no rate limits, offline usage, and full control. In 2026, local AI is no longer just for researchers — nano and small models punch far above their weight.
04 — Déploiement local
Exécuter l'IA sur ta propre machine
Confidentialité, pas de limites de débit, utilisation hors ligne et contrôle total. En 2026, l'IA locale n'est plus réservée aux chercheurs : les modèles « nano » et « small » offrent des performances bien au‑delà de leur taille apparente.
→ 2026 Shift
The tip that "local models are weaker than top proprietary models" is increasingly outdated. Models like Qwen3 14B and DeepSeek R1 8B now deliver near-GPT-4 quality for 90% of everyday tasks — locally, free, with no rate limits.
Why Run AI Locally?
Privacy
Nothing leaves your machine; no data used to train remote models
No Rate Limits
Unlimited requests, no cooldowns, no usage caps
Offline
Works on flights, poor connectivity, university networks with firewalls
Free Forever
No subscription, no API costs, no "free tier" exhaustion
Customization
Fine-tune, swap models, modify behavior with no restrictions
MCP & Agentic
Local models serve as backends for Cursor, Claude Code via OpenAI-compatible APIs
The Main Local AI Tools
Ollama — Recommended for Beginners
The gold standard for engineers — one command pulls and runs any model.
PLATFORMS
Windows, macOS, Linux
API
OpenAI-compatible REST API on localhost:11434
MCP COMPATIBLE
Serves as backend for Claude Code or Cursor via API routing
# Linux / macOS $curl -fsSL https://ollama.com/install.sh | sh
# Windows (PowerShell) $irm https://ollama.com/install.ps1 | iex
# Key Ollama Commands
$ollama run llama3.2:3b# Download + chat (3B sweet spot) $ollama run qwen3:8b# Qwen3 8B — best quality/speed ratio $ollama run deepseek-r1:8b# Reasoning model locally
$ollama list# See all downloaded models $ollama pull mistral# Download without running $ollama rm llama3# Remove a model to free disk space $ollama serve# Start API server on port 11434
LM Studio — Best GUI
Beautiful desktop app — download models, chat, and run a local API server with zero command-line knowledge.
Supports Qwen3, Gemma3, DeepSeek and hundreds more
LM Studio Link — run models on a powerful desktop and connect from a lighter laptop over LAN
Runs Anthropic-compatible API — Claude Code can use it as backend
Automatic GPU detection and VRAM usage estimation
Built-in model playground with temperature, context, and sampling controls
Other Local AI Tools
Tool
Best For
Notes
GPT4All
Desktop beginners
No GPU required; built-in RAG (chat with your files)
Jan.AI
All-in-one offline chat
Offline-first design; clean UI; OpenAI-compatible API
text-generation-webui
Advanced users / researchers
Highly flexible; extensions, LoRA loading, API
LocalAI
Self-hosted API replacement
Drop-in OpenAI API for your own infrastructure
llama.cpp
Developers / embedded use
Low-level engine under Ollama/LM Studio; minimal install
MS AI Toolkit (VS Code)
IDE-integrated local inference
ONNX/CPU models directly in VS Code; no GPU needed
Updated Hardware Requirements (2026)
Setup
RAM
GPU / VRAM
Recommended Models
Speed
Budget Laptop
8 GB
CPU only
Llama 3.2 3B, Qwen3 0.6B–1.7B, Phi-4 Mini
2–5 tok/s
Decent Laptop
16 GB
None or iGPU
Qwen3 8B, DeepSeek R1 8B, Llama 3.2 8B
5–15 tok/s
Gaming Laptop
16–32 GB
RTX 3060 (6–8GB)
Qwen3 14B, Mistral Large 3 (quantized)
Fast, near-cloud
Desktop + GPU
32 GB
RTX 4090 (24GB)
30B–70B quantized
80–130 tok/s
Enthusiast Desktop
32–64 GB
RTX 5090 (32GB)
70B+ quantized, Qwen3 72B
Best consumer
Mac (Apple Silicon)
16–192 GB unified
M3/M4 Pro–Ultra
Any model up to 70B+
Best perf/watt
// Apple Silicon Advantage
Mac unified memory means RAM is VRAM. A Mac Studio M3 Ultra with 192GB can run 70B+ models smoothly — something a Windows PC needs a $2,500 GPU to match. Best performance-per-watt available.
Best Local Models in 2026
Model
Params
Best For
Min RAM
Why It Stands Out
Qwen3 0.6B / 1.7B
<2B
Minimal hardware, ARM devices
4 GB
Tiny but capable; great for ARM
Llama 3.2 3B
3B
Budget laptop sweet spot
4–6 GB
Best quality/RAM ratio; fast
Qwen3 8B
8B
General purpose
8–12 GB
Rivals original Llama 3 70B in reasoning
DeepSeek R1 8B
8B
Math, logic, coding with reasoning
8–12 GB
CoT reasoning locally; previously needed 30B+
Qwen3 14B
14B
Quality-critical tasks
16 GB
Near GPT-4 quality for 90% of tasks
Mistral Large 3
24B
Coding, analysis, multilingual
16 GB+
Strong European open-weight; great for Arabic/French
Llama 4 Scout
17B MoE
Multimodal, long context
16 GB
10M context window; Meta's latest
Gemma 3
9B–27B
Lightweight Google model
8–24 GB
Google-grade quality, small footprint
NVIDIA Nemotron Nano
30B
Agentic, content, 1M context
16 GB+
Multi-agent systems; 1M token context
DeepSeek V3.2
67B MoE
Coding, reasoning, general
32 GB+
One of strongest open-weight models available
GGUF & Quantization Explained
Quantization reduces the precision of model weights from 32-bit floats → 4-bit integers, dramatically cutting RAM usage with minimal quality loss.
Format
Precision
Quality
RAM (7B model)
F16
16-bit float
Best
~14 GB
Q8_0
8-bit int
Near-lossless
~7 GB
Q4_K_M
4-bit (mixed)
Very good — sweet spot
~4.5 GB
Q3_K_M
3-bit (mixed)
Acceptable
~3.5 GB
Q2_K
2-bit
Noticeable degradation
~2.8 GB
→ Rule of Thumb
Always start with Q4_K_M — it's the best balance of quality and size.
Practical Local AI Workflows for Students
Study Assistant
$ollama run qwen3:8b
# Paste lecture notes → ask for summaries, quizzes, explanations # No internet needed
Local Code Assistant
Connect Ollama to Continue.dev (VS Code extension) for free GitHub Copilot-style autocompletion with any local model.
Chat with Your Files (RAG)
Use GPT4All or AnythingLLM to load your PDFs, notes, and slides — AI answers questions from your own documents.
Offline Debugging
Run DeepSeek R1 8B locally for reasoning-heavy code bugs — works on trains, offline exam study sessions.
50 Additional Facts About Local AI
Understanding the Stack
llama.cpp powers Ollama and LM Studio — written in C++, no Python dependency
GGUF replaced GGML in 2023 — now the universal standard for quantized models
Models stored as single .gguf files — 1GB (tiny) to 40GB+ (large quantized)
Ollama stores models in ~/.ollama/models (Linux/Mac) or C:\Users\<user>\.ollama\models (Windows)
Load custom GGUF files into Ollama using a Modelfile
Hugging Face is the main repository — search "GGUF" for quantized versions
AWQ is an alternative to GGUF — better on GPU inference specifically
Vulkan backend allows AMD and Intel GPUs to run models — not just NVIDIA
Hardware Deep Dive
VRAM is the key bottleneck — model must fit entirely in VRAM for GPU acceleration
RTX 4090 (24GB) remains the proven baseline at $1,600–$2,000
RTX 5090 (32GB GDDR7, 1.79 TB/s bandwidth) is the new consumer king
Intel Arc B580 (12GB VRAM, ~$250) is the best budget GPU for local AI
RAM speed matters for CPU inference — DDR5 6000MHz >> DDR4 3200MHz
NVMe SSD affects loading time — ~3s from NVMe vs ~15s from slow HDD
For $500 local AI: Intel Arc B580 (12GB) + 32GB DDR5 RAM runs Qwen3 14B
Multi-GPU via tensor parallelism — two RTX 4070s (12GB each) run 24GB model
Models & Selection
MoE models like Llama 4 Scout activate only a fraction of params per token — 70B quality at 17B cost
DeepSeek V3 (671B total, 67B active) runs on consumer hardware via MoE
Always use instruction-tuned models (:instruct or :chat) for chat — not base models
Code-specific models (DeepSeek Coder V3) outperform general models on programming tasks
Embedding models (1–2GB) enable local RAG — AI searches your documents offline
Tools & Ecosystem
AnythingLLM — most powerful local RAG; multi-user, multi-document workspaces
Continue.dev — VS Code/JetBrains extension for inline code completion + chat
Open WebUI — beautiful ChatGPT-style browser interface at localhost:3000
Msty — multi-model conversations; run two models side by side
Llamafile — packages model + llama.cpp into a single executable; double-click to run
→ The Bigger Picture
The local AI ecosystem is now a serious alternative to cloud for 80% of student use cases. The next wave is local multimodal models — Llama 4 Scout, Gemma 3, and Qwen2.5-VL can process images + text locally. Running a local embedding + local LLM stack means you can build a fully private, offline RAG chatbot over your entire university notes library — no cloud, no cost, no limits.
→ Le virage 2026
L'idée selon laquelle « les modèles locaux sont plus faibles que les grands modèles propriétaires » devient de plus en plus dépassée. Des modèles comme Qwen3 14B et DeepSeek R1 8B fournissent aujourd'hui une qualité proche de GPT-4 pour 90% des tâches courantes — en local, gratuitement, sans limites de débit.
Pourquoi exécuter l'IA localement ?
Confidentialité
Aucune donnée ne quitte ta machine ; rien n'est utilisé pour entraîner des modèles distants.
Pas de limites de taux
Requêtes illimitées, pas de cooldown, pas de quotas d'usage.
Hors ligne
Fonctionne en avion, zone de mauvaise connexion, ou réseaux d'université avec pare-feu restrictif.
Gratuit à vie
Pas d'abonnement, pas de coût API, pas d'épuisement de « tier gratuit ».
Personnalisation
Tu peux faire du fine-tuning, changer de modèle et modifier le comportement sans contraintes.
MCP & agentique
Les modèles locaux servent de back-end à Cursor et Claude Code via des API compatibles OpenAI.
Les principaux outils d'IA locale
Ollama — Recommandé pour les débutants
La référence pour les ingénieurs : une seule commande suffit pour télécharger et lancer n'importe quel modèle.
PLATEFORMES
Windows, macOS, Linux
API
API REST compatible OpenAI sur localhost:11434
COMPATIBILITÉ MCP
Peut servir de back-end pour Claude Code ou Cursor via le routage d'API
BIBLIOTHÈQUE DE MODÈLES
100+ modèles, dont Llama 4, Qwen3, DeepSeek, Mistral, Gemma3, Phi-4
COMMANDES D'INSTALLATION
# Linux / macOS $curl -fsSL https://ollama.com/install.sh | sh
# Windows (PowerShell) $irm https://ollama.com/install.ps1 | iex
# Commandes Ollama clés
$ollama run llama3.2:3b# Télécharge + chat (3B, bon compromis) $ollama run qwen3:8b# Qwen3 8B — meilleur ratio qualité/vitesse $ollama run deepseek-r1:8b# Modèle de raisonnement en local
$ollama list# Liste tous les modèles téléchargés $ollama pull mistral# Télécharge sans lancer $ollama rm llama3# Supprime un modèle pour libérer de l'espace $ollama serve# Démarrage du serveur API sur le port 11434
LM Studio — Meilleure interface graphique
Une application de bureau élégante : tu télécharges des modèles, discutes, et lances un serveur API local… sans rien toucher au terminal.
Supporte : Qwen3, Gemma3, DeepSeek et des centaines d'autres modèles
LM Studio Link : exécuter des modèles sur un PC puissant et s'y connecter depuis un ordinateur plus léger via le LAN
API compatible Anthropic — Claude Code peut l'utiliser comme back-end
Détection automatique de GPU et estimation de l'utilisation de VRAM
« Playground » intégré avec réglages de température, contexte et échantillonnage
Autres outils d'IA locale
Outil
Idéal pour
Remarques
GPT4All
Débutants sur bureau
Aucun GPU requis ; inclut un RAG intégré (discuter avec tes fichiers)
Jan.AI
Chat hors ligne tout-en-un
Conçu comme une application offline, interface propre, API compatible OpenAI
text-generation-webui
Utilisateurs avancés / chercheurs
Très flexible, extensions, chargement de LoRA, API serveur
LocalAI
Remplacement API auto-hébergé
API au format OpenAI pour ton propre infrastructure
llama.cpp
Devs / usage embarqué
Moteur bas-niveau derrière Ollama / LM Studio ; très léger
MS AI Toolkit (VS Code)
Inférence locale intégrée
Modèles ONNX/CPU directement dans VS Code, pas besoin de GPU
Configuration matérielle mise à jour (2026)
Setup
RAM
GPU / VRAM
Modèles recommandés
Vitesse (tok/s)
Laptop budget
8 GB
CPU uniquement
Llama 3.2 3B, Qwen3 0.6B–1.7B, Phi-4 Mini
2–5 tok/s
Laptop décent
16 GB
Aucun GPU ou iGPU
Qwen3 8B, DeepSeek R1 8B, Llama 3.2 8B
5–15 tok/s
Laptop gaming
16–32 GB
RTX 3060 (6–8GB)
Qwen3 14B, Mistral Large 3 (quantifié)
Rapide, proche du cloud
Desktop + GPU
32 GB
RTX 4090 (24GB)
Modèles 30B–70B quantifiés
80–130 tok/s
Desktop enthusiast
32–64 GB
RTX 5090 (32GB)
70B+ quantifié, Qwen3 72B
Meilleure version grand public
Mac (Apple Silicon)
16–192 GB unifiés
M3/M4 Pro–Ultra
Tous modèles ≤ 70B+
Meilleur rapport perf/watt
// Avantage Apple Silicon
Avec la mémoire unifiée, la RAM sert aussi de VRAM : un Mac Studio M3 Ultra avec 192 GB peut exécuter de 70B+ modèles sans problème — un résultat que certains PC Windows n'atteignent qu'avec une carte GPU à 2 500 €. C'est aujourd'hui le meilleur rapport performance / watt grand public.
Meilleurs modèles locaux en 2026
Modèle
Params
Idéal pour
RAM minimale
Ce qui le distingue
Qwen3 0.6B / 1.7B
<2B
Matériel ultra-léger, dispositifs ARM
4 GB
Très petit mais capable ; parfait pour ARM
Llama 3.2 3B
3B
Laptop budget
4–6 GB
Meilleur ratio qualité/RAM ; très rapide
Qwen3 8B
8B
Usage général
8–12 GB
Rivalise avec Llama 3 70B sur le raisonnement
DeepSeek R1 8B
8B
Math, logique, code avec raisonnement
8–12 GB
Raisonnement CoT en local, auparavant réservé à ≥30B+
Qwen3 14B
14B
Tâches critiques
16 GB
Qualité proche de GPT-4 pour 90% des tâches
Mistral Large 3
24B
Code, analyse, multilingue
16 GB+
Fort modèle open-weight européen, bon sur Arabe/Français
Llama 4 Scout
17B MoE
Multimodal, long contexte
16 GB
10M context window ; modèle multimodal le plus avancé
Gemma 3
9B–27B
Léger, modèle Google
8–24 GB
Qualité Google avec faible empreinte
NVIDIA Nemotron Nano
30B
Agentique, contenu, 1M context
16 GB+
Idéal pour systèmes multi-agents, très long context
DeepSeek V3.2
67B MoE
Code, raisonnement, généraliste
32 GB+
Un des plus puissants modèles open-weight
GGUF & quantification expliquées
La quantification réduit la précision des poids du modèle de float32 → int4, ce qui divise la consommation de RAM tout en gardant une perte de qualité limitée.
Format
Précision
Qualité
RAM (7B)
F16
16-bit float
Meilleure
~14 GB
Q8_0
8-bit int
Quasi sans perte
~7 GB
Q4_K_M
4-bit (mixte)
Très bonne — « sweet spot »
~4,5 GB
Q3_K_M
3-bit (mixte)
Acceptable
~3,5 GB
Q2_K
2-bit
Perte de qualité visible
~2,8 GB
→ Règle générale
Commence toujours par Q4_K_M — c'est le meilleur compromis qualité/taille.
Flux de travail IA locaux pratiques pour étudiants
Assistant d'étude
$ollama run qwen3:8b
# Colle tes notes de cours → demande résumés, quiz, explications # Fonctionne sans internet
Assistant de code local
Connecte Ollama à Continue.dev (extension VS Code) pour un autocomplétion de type GitHub Copilot gratuit, avec n'importe quel modèle local.
Discuter avec tes fichiers (RAG)
Utilise GPT4All ou AnythingLLM pour charger PDFs, notes et diapos — l'IA répond à partir de tes documents.
Débogage hors ligne
Exécute DeepSeek R1 8B localement pour les bugs de code complexes — fonctionne dans le train, en séance de révision hors ligne, etc.
50 faits supplémentaires sur l'IA locale
Comprendre la pile
llama.cpp alimente Ollama et LM Studio — écrit en C++, sans dépendance Python
GGUF a remplacé GGML en 2023 — le format universel des modèles quantifiés
Les modèles sont stockés en fichiers .gguf uniques (1GB à 40GB+)
Ollama stocke les modèles dans ~/.ollama/models (Linux/Mac) ou C:\Users\<user>\.ollama\models (Windows)
Tu peux charger des fichiers .gguf personnalisés via un Modelfile
Hugging Face est le principal dépôt — cherche « GGUF » pour les versions quantifiées
AWQ est une alternative à GGUF, généralement meilleure pour l'inférence GPU
Le backend Vulkan permet d'exécuter des modèles sur GPU AMD et Intel, pas seulement NVIDIA
Profondeur matérielle
La VRAM est le goulot d'étranglement : le modèle doit tenir intégralement en VRAM pour l'accélération GPU
RTX 4090 (24GB) reste le baseline de référence, autour de 1 600–2 000 €
RTX 5090 (32GB GDDR7, 1,79 TB/s) devient le nouveau roi grand public
Intel Arc B580 (12GB VRAM, ~250 €) est le meilleur GPU budget
La vitesse de la RAM compte pour l'inférence CPU — DDR5 6000MHz >> DDR4 3200MHz
Un SSD NVMe réduit le temps de chargement (≈3 s vs ≈15 s sur HDD lent)
Multi-GPU via tensor parallelism : deux RTX 4070 (12GB chacun) exécutent un modèle 24GB
Modèles & sélection
Les modèles MoE comme Llama 4 Scout n'activent qu'une fraction des paramètres par token — qualité 70B à coût 17B
DeepSeek V3 (671B au total, 67B actifs) tourne sur du matériel grand public via MoE
Pour le chat, utilise toujours des modèles spécifiquement réglés (:instruct ou :chat), pas les versions de base
Les modèles spécifiques au code (DeepSeek Coder V3) battent les modèles généraux sur les tâches de programmation
Les modèles d'embedding (1–2GB) permettent du RAG local — recherche dans tes documents sans cloud
Outils & écosystème
AnythingLLM — le RAG local le plus puissant ; espaces de travail multi-utilisateurs et multi-documents
Continue.dev — extension VS Code/JetBrains pour complétion de code en ligne + chat
Open WebUI — interface web style ChatGPT sur localhost:3000
Msty — conversations multi-modèles ; exécute deux modèles côte à côte
Llamafile — regroupe modèle + llama.cpp en un seul exécutable ; double-clique pour lancer
→ L'image d'ensemble
L'écosystème d'IA locale est désormais une alternative sérieuse au cloud pour 80% des cas d'usage étudiants.
La prochaine vague est celle des modèles locaux multimodaux : Llama 4 Scout, Gemma 3 et Qwen2.5-VL peuvent traiter images + texte localement.
Exécuter une pile embedding local + LLM local te permet de construire un chatbot RAG entièrement privé et hors ligne sur toute ta bibliothèque de notes de cours — sans cloud, sans coût, sans limites.