Claude Code est la voiture, le modèle est le moteur
Quand vous utilisez Claude Code normalement, vous utilisez un agent (Claude Code) qui tourne par défaut sur les modèles Anthropic : Opus, Sonnet ou Haiku. C'est ce modèle que vous payez, en tokens, via l'API d'Anthropic. Si vous atteignez votre limite de session, c'est parce que vous avez consommé votre quota de tokens sur ces modèles payants.
Ce que beaucoup ignorent : Claude Code peut fonctionner avec n'importe quel modèle compatible, pas seulement les modèles Anthropic. Vous pouvez ouvrir le capot et changer le moteur. Les modèles open source (téléchargeables et exécutables localement) et les modèles gratuits disponibles via des plateformes comme Open Router deviennent alors des remplaçants valides.
Cette pratique est conforme aux conditions d'utilisation d'Anthropic : vous utilisez leur agent, vous changez simplement le modèle qui tourne dedans.
Modèles open source vs modèles fermés : où en est-on en 2026 ?
Les modèles fermés (Opus 4.6, Sonnet 4.6, GPT, Gemini) restent globalement les plus performants sur les tâches complexes. Mais l'écart avec les modèles open source se réduit rapidement. Sur le benchmark SWE-bench Verified, qui mesure les capacités en développement logiciel, plusieurs modèles open source dépassent aujourd'hui Claude Sonnet 3.7, qui était le meilleur modèle disponible il y a quelques mois à peine.
La sortie de Gemma 4 de Google illustre cette tendance : ce modèle open source affiche un score ELO parmi les plus élevés de sa catégorie tout en étant l'un des plus légers en taille. Moins de paramètres, c'est moins de RAM requise, donc des modèles plus puissants qu'on peut faire tourner sur des machines grand public.
Ce que les modèles open source font moins bien dans Claude Code
Les modèles open source n'ont pas tous été entraînés sur les outils spécifiques de Claude Code. Certains n'implémentent pas correctement le protocole JSON que Claude Code attend pour ses appels d'outils. D'autres ont une fenêtre de contexte trop petite pour gérer le prompt système de Claude Code, ce qui crée des comportements erratiques.
En pratique, certains modèles fonctionnent très bien, d'autres moins. Il faut tester. Si un modèle ne répond pas correctement aux appels d'outils, ce n'est pas un problème de Claude Code, c'est une incompatibilité entre le moteur et la voiture. Testez un autre modèle. Pour optimiser la consommation de tokens quelle que soit la méthode, les 18 hacks de réduction de tokens s'appliquent aussi aux modèles open source.
Méthode 1 : modèle local avec Ollama
Installation et téléchargement d'un modèle
Rendez-vous sur ollama.com et téléchargez Ollama pour votre système d'exploitation. Une fois installé, ouvrez un terminal et téléchargez un modèle avec la commande ollama pull [nom-du-modèle]. Par exemple, pour Qwen 3.5 9 milliards de paramètres : ollama pull qwen3.5.
Pour choisir quel modèle télécharger, la règle de base est la RAM disponible sur votre machine. Demandez à Claude Code vos specs et il vous dira quelles tailles de modèles sont raisonnables. Un modèle de 9 milliards de paramètres pèse environ 6,6 Go. Un modèle plus grand sera plus intelligent mais plus lent sur du hardware standard.
Configurer la fenêtre de contexte
Par défaut, Ollama peut ne pas allouer autant de contexte que ce que le modèle supporte théoriquement. Si le modèle perd le fil en cours de session, c'est souvent un problème de fenêtre de contexte trop petite. Vous pouvez créer une version personnalisée du modèle avec une fenêtre de contexte explicitement définie. Demandez à Claude Code comment faire : c'est une commande unique, et il vous guidera selon votre système d'exploitation.
Lancer Claude Code avec Ollama
Dans l'interface d'Ollama, une fois le modèle téléchargé, vous trouverez une commande du type ollama launch claude. Copiez-la, collez-la dans votre terminal VS Code, et Claude Code se lance en vous demandant quel modèle Ollama utiliser. Sélectionnez celui que vous venez de télécharger.
Quelques réalités à anticiper : le modèle tourne localement, donc tout est privé. En contrepartie, la vitesse dépend entièrement de votre hardware. Sur une machine standard avec un petit modèle, comptez plusieurs minutes pour des tâches qui prendraient quelques secondes avec Sonnet. La visibilité sur les appels d'outils peut aussi être réduite selon le modèle.
Note sur le compte Anthropic
Même pour utiliser des modèles locaux, Claude Code nécessite un compte Anthropic avec 5 $ de crédits chargés. Ces 5 $ ne seront jamais consommés si vous utilisez exclusivement des modèles open source, mais le compte doit exister. C'est le seul coût initial.
Méthode 2 : modèles gratuits via Open Router
Principe
Open Router est une plateforme qui agrège des centaines de modèles IA via une API unifiée. Certains de ces modèles sont entièrement gratuits. Plutôt que de faire pointer Claude Code vers l'API d'Anthropic, vous lui faites pointer vers Open Router. Il utilise alors les modèles Open Router à la place.
Configuration dans settings.local.json
Dans votre projet Claude Code, ouvrez le fichier .claude/settings.local.json. Vous devez y ajouter plusieurs variables d'environnement :
- L'URL de base : pointer vers l'API Open Router au lieu d'Anthropic
- Le token d'authentification Anthropic : y mettre votre clé API Open Router (oui, dans le champ Anthropic)
- La clé API Anthropic : laisser vide
- Le modèle principal et tous les modèles secondaires (Haiku, Sonnet) : y mettre un modèle gratuit Open Router
Ce dernier point est critique. Si vous ne remplacez pas les modèles secondaires, Claude Code continuera d'utiliser Haiku ou Sonnet d'Anthropic pour les petits appels d'outils (recherches de fichiers, lectures, etc.), et vous serez facturé à votre insu. Remplacez tous les modèles dans la configuration.
Trouver des modèles gratuits
Sur openrouter.ai, tapez "free" dans la recherche pour afficher tous les modèles gratuits disponibles. Le modèle "Open Router Free" route automatiquement vers le modèle le plus disponible à l'instant T, ce qui aide à éviter les limites de taux, mais vous n'avez aucun contrôle sur quel modèle est utilisé. Pour plus de stabilité, choisissez un modèle spécifique comme Qwen 3.6 (suffixe :free dans le nom) et renseignez son identifiant dans votre configuration.
Limites de taux
Avec un compte Open Router sans solde : 50 requêtes par jour sur les modèles gratuits. Avec 10 $ chargés sur le compte : 1 000 requêtes par jour. Ces 10 $ ne sont pas consommés par les modèles gratuits, ils servent uniquement à débloquer les limites de taux. Pour un usage intensif, c'est un investissement ponctuel de 10 $.
Quand utiliser ces méthodes
Ces méthodes sont pertinentes sur des tâches à faible risque et fort volume : lire et résumer des fichiers avant de les passer à un modèle plus puissant, faire des recherches dans une base de code, générer du scaffolding répétitif, trier des tâches, organiser des fichiers, rédiger des tests simples.
Deux cas d'usage pratiques : quand Claude Code est en panne et que vous ne voulez pas rester bloqué, ou quand vous avez atteint votre limite de session et que vous devez attendre le reset. Dans ces cas, basculer sur un modèle local ou open source vous permet de continuer à travailler.
Pour des tâches critiques, de l'architecture complexe ou du code qui ne tolère pas d'erreur, restez sur Opus 4.6 ou Sonnet 4.6. La différence de qualité reste réelle sur ces usages. C'est la même logique que notre pipeline d'audit SEO complet : les agents légers pour l'exploration, le modèle puissant pour la synthèse finale.
Gratuit : ce que ça veut dire vraiment
Rien n'est vraiment gratuit. Pour faire tourner un bon modèle en local, il faut le hardware. Pour utiliser des modèles cloud open source de qualité, il faut soit un abonnement, soit un VPS assez puissant pour les héberger. Et pour lever les limites de taux sur Open Router, il faut charger 10 $ sur le compte.
Ce que ces méthodes permettent vraiment, c'est de réduire drastiquement le coût par token, pas de l'amener à zéro. À titre de comparaison : Gemma 4 de 31 milliards de paramètres coûte 0,14 $ par million de tokens en entrée et 0,40 $ en sortie via Open Router. Opus 4.6 coûte 5 $ en entrée et 25 $ en sortie. Un rapport de 50x à 100x. C'est là que se trouve le vrai gain.


