18 hacks tokens Claude Code : multipliez votre autonomie

Agents IA11 min de lecture·
Par David Meckler
·
18 techniques pour réduire la consommation de tokens Claude Code classées en 3 niveaux

Comment Claude Code consomme réellement vos tokens

Un token est la plus petite unité de texte qu'un modèle IA lit et facture. En ordre de grandeur, un token correspond à peu près à un mot. Le point critique à comprendre : à chaque nouveau message, Claude relit l'intégralité de la conversation depuis le début. Pas depuis le dernier message, depuis le premier.

Ça signifie que le coût ne s'additionne pas, il se multiplie. Le message 1 coûte 500 tokens. Le message 30 coûte 15 000 tokens parce qu'il relit les 29 précédents. Un développeur qui a tracé une conversation de 100 messages a calculé que 98,5 % des tokens consommés servaient uniquement à relire l'historique. Zéro valeur produite sur 98,5 % du budget.

Par-dessus ça, Claude recharge à chaque message votre CLAUDE.md, vos serveurs MCP, vos prompts système, vos skills et vos fichiers. Ce sont des tokens invisibles qui s'accumulent en permanence en arrière-plan. Et un contexte surchargé ne coûte pas seulement plus cher : il produit des résultats moins bons. Les modèles font plus attention au début et à la fin d'une session. Tout ce qui est au milieu tend à être ignoré.

Niveau 1 : les bases (9 hacks)

1. Démarrer une conversation fraîche entre chaque tâche

Utilisez /clear entre deux tâches sans rapport. Le contexte d'une tâche A n'a rien à faire dans une conversation sur la tâche B. Chaque message dans une longue conversation est exponentiellement plus cher que le même message dans une session fraîche. C'est l'habitude qui prolonge le plus la durée de vie d'une session.

2. Déconnecter les serveurs MCP inutilisés

Chaque serveur MCP connecté charge toutes ses définitions d'outils dans votre contexte à chaque message. Un seul serveur peut représenter 18 000 tokens par message. Au début de chaque session, déconnectez ceux dont vous n'avez pas besoin. Si un CLI existe pour remplacer un MCP, préférez-le : c'est plus rapide et moins coûteux.

3. Regrouper les instructions en un seul message

Trois messages séparés coûtent trois fois plus qu'un seul message combiné. Plutôt que d'envoyer "résume ce fichier", puis "extrais les problèmes", puis "propose un correctif" en trois fois, envoyez tout en une seule fois. Si Claude fait quelque chose de légèrement incorrect, éditez votre message original et régénérez plutôt que d'envoyer un message de correction. Les corrections s'ajoutent à l'historique de façon permanente, les éditions remplacent l'échange.

4. Utiliser le mode plan avant toute tâche réelle

Le mode plan permet à Claude de cartographier l'approche, poser les bonnes questions, et éviter la principale source de gaspillage de tokens : partir dans la mauvaise direction, écrire du code, et devoir tout recommencer. Ajoutez cette règle dans votre CLAUDE.md : "Ne faites aucune modification avant d'avoir 95 % de confiance dans ce qui doit être construit. Posez des questions jusqu'à atteindre ce niveau."

5. Utiliser /context et /cost

/context montre exactement ce qui consomme vos tokens en ce moment : historique de conversation, overhead MCP, fichiers chargés. /cost affiche votre consommation réelle et la dépense estimée pour la session en cours. Sans ces commandes, vous ne savez pas d'où vient la fuite.

Exemple concret : dans une session fraîche sans aucun message, /context peut déjà afficher 51 000 tokens consommés par le prompt système, les outils, les agents personnalisés et les skills. C'est votre point de départ avant même d'avoir tapé quoi que ce soit.

6. Configurer une barre de statut dans le terminal

Dans le terminal, vous pouvez afficher en permanence le modèle utilisé, un indicateur visuel de progression et le pourcentage de la fenêtre de contexte consommée. Tapez /st status line dans le terminal et demandez à Claude de répliquer cette configuration. Ça rend visible ce qui est normalement invisible.

7. Garder le dashboard ouvert

Avoir votre tableau de bord d'utilisation Claude visible à côté de votre session vous permet de doser votre consommation. Vous pouvez aussi configurer une automatisation qui vous envoie une notification toutes les 30 minutes quand vous approchez de votre limite.

8. Être précis sur ce que vous collez

Avant de coller un fichier ou document entier, demandez-vous si Claude a vraiment besoin de tout lire. Si le bug est dans une seule fonction, collez uniquement cette fonction. Si Claude n'a besoin que d'un paragraphe de contexte, collez uniquement ce paragraphe. Être précis sur ce que vous lui donnez à lire, c'est aussi important qu'être précis sur ce que vous lui demandez de faire.

9. Surveiller Claude pendant qu'il travaille

Ne lancez pas une tâche longue et partez faire autre chose. Si Claude part dans la mauvaise direction ou tourne en boucle sur les mêmes fichiers, il peut consommer 80 % de vos tokens sans produire de valeur. Regardez les premières minutes. Dès que vous confirmez qu'il est sur la bonne voie, vous pouvez vous éloigner.

Niveau 2 : optimisation avancée (5 hacks)

10. Garder le fichier CLAUDE.md sous 200 lignes

Claude relit ce fichier à chaque message, pas seulement au début de la session. Un CLAUDE.md de 1 000 lignes est relu intégralement même quand vous tapez "bonjour". Gardez-y uniquement : stack technique, conventions de code, commandes de build, règle des 95 %, et les quelques informations les plus critiques. Pour tout le reste, utilisez ce fichier comme un index qui pointe vers les ressources, sans les charger directement. C'est le principe de l'architecture relationnelle appliqué au fichier d'instructions.

11. Référencer les fichiers de façon chirurgicale

Ne dites pas "voici tout mon repo, trouve le bug". Dites "vérifie la fonction verifyUser dans le fichier auth.js". Utilisez la syntaxe @nom_fichier pour pointer directement vers les fichiers concernés. Plus vous êtes précis sur ce que Claude doit lire, moins il explore librement et moins il consomme.

12. Compacter à 60 % de capacité

La compaction automatique se déclenche à 95 % de capacité, ce qui est trop tard. Le contexte est déjà dégradé. Lancez /context régulièrement et à environ 60 % d'utilisation, exécutez /compact avec des instructions précises sur ce qu'il doit préserver. Après trois ou quatre compactions successives, la qualité commence à décliner. À ce stade, faites un résumé de session avec /clear, redonnez le résumé, et repartez.

13. Le cache a un timeout de 5 minutes

Claude utilise un cache pour éviter de retraiter un contexte inchangé. Ce cache expire au bout de 5 minutes. Si vous vous absentez plus de 5 minutes et revenez, votre prochain message retraite tout depuis le début au coût plein. Avant de faire une pause, lancez /compact ou /clear pour éviter ce retraitement inutile.

14. Contrôler les outputs de commandes shell

Quand Claude exécute des commandes shell, le résultat complet entre dans la fenêtre de contexte. Une commande git log qui retourne 200 commits, c'est 200 lignes de tokens chargées. Si certaines commandes ne sont pas nécessaires dans un projet donné, désactivez-les dans les permissions de ce projet. Ce coût est totalement invisible dans l'interface mais bien réel.

Niveau 3 : architecture de session (4 hacks)

15. Choisir le bon modèle selon la tâche

Sonnet pour la majorité du travail de code. Haiku pour les sous-agents, le formatage, les tâches simples et répétitives. Opus uniquement pour la planification architecturale profonde, quand Sonnet ne suffit pas. Essayez de limiter Opus à moins de 20 % de votre utilisation totale.

16. Comprendre le coût réel des sous-agents

Un workflow multi-agents consomme 7 à 10 fois plus de tokens qu'une session simple. Chaque sous-agent démarre avec son propre contexte complet : il recharge tout depuis le début. Utilisez les sous-agents pour des tâches ponctuelles, particulièrement si ces tâches peuvent tourner sur Haiku. C'est exactement la logique derrière le pattern de parallélisation : distribuer le travail sur des agents légers plutôt que tout centraliser.

17. Planifier les sessions lourdes en dehors des heures de pointe

Les heures de pointe sur Claude Code sont 8h-14h heure de l'Est en semaine. Pendant ces créneaux, la session se consomme plus vite. En dehors (après-midi, soirées, week-end), l'autonomie est plus longue. Programmez vos refactorisations massives, sessions multi-agents et gros projets pendant les heures creuses.

18. Transformer CLAUDE.md en source de vérité évolutive

Votre CLAUDE.md doit stocker des décisions stables, pas des conversations. Chaque choix architectural documenté là est un paragraphe que vous n'aurez plus jamais à retaper. Ajoutez-y des règles de gestion de tokens : "utilise des sous-agents Haiku pour toute exploration ou recherche", "si une tâche nécessite l'analyse de trois fichiers ou plus, délègue à un sous-agent et retourne uniquement un résumé". Ce fichier doit rester lean, mais il peut apprendre.

Atteindre sa limite de session n'est pas nécessairement un problème. C'est souvent le signe qu'on utilise l'outil au maximum. Le vrai problème, c'est d'atteindre cette limite en ayant gaspillé 80 % du budget sur du contexte inutile. La plupart des utilisateurs n'ont pas besoin d'un plan plus cher. Ils ont besoin d'une meilleure hygiène de contexte.

Testez votre site maintenant

Analyse SEO gratuite par IA en 60 secondes.

Essai gratuit