Pourquoi auditer vos Skills : Maîtrisez les limites de tokens cachés

Publié le 2026-03-25 ·

Accroche

Vos Skills IA tournent. Les résultats sont là. Mais vous avez remarqué ? Vous explosez vos limites de tokens rapidement et vous vous vous retrouvez bloqué à cause du "rate limit" de Claude Code.

Imagine : un skill qui tourne régulièrement, qui gaspille 200 000 tokens à chaque exécution. Avec la fenêtre glissante de 5 heures en plan Pro, vous saturez en 3-4 exécutions. Bloqué pendant 5 heures d'attente.

L'audit des tokens, c'est l'outil pour ne plus vous cogner à ce plafond aussi vite — et continuer à construire sans attendre la réinitialisation.

1. Qu'est-ce qu'un token, vraiment ?

Un token = une partie minuscule d'information que le modèle IA doit traiter.

Bonjour = 1 token
Une phrase moyenne = 10-15 tokens
Une page de documentation = 500-1 500 tokens
Une base de données entière = des millions

Le coût est double : - Input (ce que vous donnez au modèle) = 1 crédit - Output (ce que le modèle génère) = 5 crédits

Donc si un skill lit 100 000 tokens et en génère 20 000, le coût réel = 100 000 + (20 000 × 5) = 200 000 unités.

2. Les pièges : pourquoi vous saturez rapidement vos limites

Piège 1 : Lire beaucoup pour en utiliser peu

Scénario réel : vous avez 500 fiches clients. Votre skill doit en analyser 3. Mais faute de filtre, il lit les 500.

Impact : +150 000 tokens input inutiles par exécution
Risque : vous dépassez votre limite en 5 heures (au lieu de 8 heures), bloqué jusqu'à la réinitialisation
Solution : interroger la base intelligemment, pas en bloc

Piège 2 : Faire tout à la main ce que Python pourrait faire

Scénario réel : le modèle IA transforme du JSON en CSV. Il génère du texte. Python aurait pu le faire en 1 ms.

Impact : +40 000 tokens output gaspillés (coûtent 5× plus)
Risque : 200 000 tokens supplémentaires par exécution
Solution : déléguer au code ce qui n'a pas besoin de raisonnement

Piège 3 : Relire et réécrire à chaque exécution

Scénario réel : mardi, vous générez une fiche d'analyse d'un de vos concurrents. Vendredi, un nouveau document arrive. Vous relisez TOUTES les 500 analyses antérieures pour régénérer la fiche.

Impact : +200 000 tokens input à chaque update (au lieu de 5 000 pour juste la nouvelle analyse)
Risque : vous doublez votre consommation inutilement
Solution : mode incrémental — ne traiter que les nouvelles données

Piège 4 : Gonfler le contexte système

Scénario réel : le "prompt" du skill (instructions, templates, exemples) passe de 5 KB à 25 KB. C'est 5 000 tokens de contexte fixe à chaque appel.

Impact : +5 000 tokens input × 100 exécutions = 500 000 tokens/mois perdus
Risque : quota saturé plus vite à chaque changement du skill
Solution : externaliser les templates lourds, les charger à la demande

Piège 5 : Utiliser un modèle surpuissant pour une tâche simple

Scénario réel : vous utilisez Opus 4.6 pour extraire des chiffres d'une liste. Haiku aurait suffi.

Impact : consommation 2-3× plus élevée pour le même résultat
Risque : quota saturé inutilement
Solution : adapter le modèle à la complexité réelle

3. Les risques du non-audit

📊 Risque de quota

Un skill coûteux × quelques exécutions = saturé en 5 heures
Sans audit, vous ne savez pas où réduire — donc vous arrêtez de travailler
Vous gaspillez votre temps à attendre la réinitialisation de la fenêtre glissante

⏱️ Risque de productivité

Des skills lourds → vous vous cognez au rate limit toutes les 5 heures
Vous ne pouvez plus tester, itérer, expérimenter fluide
Vous êtes bloqué en plein projet, attendez la réinitialisation

🚀 Risque de scalabilité

Tant que vous êtes seul, ça va. Mais si d'autres rejoignent et partagent la limite ?
Conflit sur le quota partagé → tout le monde se bloque mutuellement

⚙️ Risque opérationnel

Vous déployez un nouveau skill sans mesurer son impact sur votre quota
Vous ne savez pas pourquoi vous êtes bloqué la fois suivante

4. Comment ça marche : Auditer en 3 phases

Qu'est-ce qu'un auditeur ? C'est un script automatisé qui analyse votre skill comme un inspecteur examinant une maison : il regarde chaque étape (« tu lis ce fichier ? combien de tokens ? »), fait le calcul, et te dit où tu gaspilles.

Phase 1 : Cartographier

Le skill scanne toutes les étapes de votre workflow : - Quels fichiers sont lus ? - Quels calculs sont faits ? - Quoi est généré ?

Phase 2 : Mesurer

Pour chaque étape, il estime les tokens consommés : - Fichiers réels dans le projet → mesure avec wc pour précision - Pas de données réelles ? → estimation conservatrice - Accumulation de contexte → comptabilisée (souvent 15-40% du coût)

Phase 3 : Recommander

Le skill identifie les étapes coûteuses > 15% du total et propose des optimisations :

Type	Exemple
Déléguer à Python	Formatage JSON → passe de 50k tokens output à 0
Lire moins	Filters + pagination au lieu de tout charger
Lire incrémentalement	Juste les nouvelles données, pas l'historique
Réduire le contexte système	Templates externalisés plutôt qu'inline
Changer de modèle	Haiku suffit pour cette tâche (× 0.5 coût)

Chaque optimisation est chiffrée : "cette action te économise 45 000 tokens = -8% du coût total".

5. Exemple réel : competitor_analyze

Notre skill competitor_analyze analyse la veille concurrentielle.

État actuel : - 478 000 tokens consommés par exécution - Modèle requis : Opus 4.6 (lourd) - Fréquence : ~2-3 fois/semaine en période active - Impact sur quota : impacte fortement le quotas de sessions et on se retrouve plus vite bloqué en "rate limit" sur la fenêtre glissante de 5 heures

Où va les token? (voir graphique ci-dessous)

Étape	Coût	%	Problème
Lire 140 analyses existantes	102 000	21%	✋ Lues à chaque exécution, même si pas modifiées
Générer 5 analyses	58 000	12%	Normal
Générer 5 analyses thématiques	67 000	14%	Relues en intégralité chaque fois
Contexte système (SKILL.md énorme)	7 000	2%	Templates inline au lieu d'externalisés
Autres (fiches, synthèses, index)	244 000	51%	Normal

Optimisations proposées : 1. Lire incrémentalement les analyses → -14% (économie : 67 000 tokens) 2. Mode incrémental pour les thèmes → -10% (économie : 48 000 tokens) 3. Externaliser les templates du SKILL → -4% (économie : 19 000 tokens)

Impact : - Tokens consommés (optimisé) : 271 000 (-43%) - Gain par exécution : 207 000 tokens économisés - Résultat : au lieu de saturer en 5-6 exécutions, vous pouvez en lancer 8-10 sur la fenêtre de 5 heures - Concrètement : vous passez de "bloqué en 2 lancements" à "libéré 3-4 lancements supplémentaires"

6. Plan d'action pour votre équipe (ou pour vous, si vous êtes seul)

Étape 1 : Quels skills auditer ?

Lister tous vos skills en production
Classer par fréquence d'utilisation : "celui qu'on lance 10 fois/semaine doit être efficace"
Commencer par le top 3 des skills les plus fréquents

Étape 2 : Lancer l'audit

/token_audit <nom_du_skill>

→ Rapport généré automatiquement, zéro effort

Étape 3 : Lire le rapport

Vous pouvez lire directement : - Tableau Résumé : tokens consommés, étape la plus chère, modèle recommandé - Tableau Optimisations : quoi changer, gain estimé, complexité

Étape 4 : Décider quoi optimiser

Règle simple : - Gain > 100 000 tokens ET complexité faible ? → Faire maintenant - Gain > 50 000 tokens ET complexité moyenne ? → Planifier quand vous avez du temps - Gain < 50 000 tokens ? → Ignorer, pas ROI

Étape 5 : Implémenter et valider

Implémenter l'optimisation
Relancer l'audit quelques semaines après pour confirmer les gains

PS : vous pouvez aussi créer un Skill "Architecte logiciel" (on en reparlera) qui va utiliser ce rapport d'audit et d'autres éléments pour vous proposer un plan d'optimisation avancée.

Fréquence recommandée (réaliste pour une personne)

Quand vous lancez un nouveau skill : audit dès que vous le déployez
Quand votre quota sature trop vite : audit des suspects
Chaque trimestre : audit du skill le plus lourd (pour suivre la croissance des données)

7. ROI : Pourquoi c'est worth it

Investissement

Temps : quelques heures pour auditer vos 3-5 gros skills
Outils : gratuit (intégré à Claude Code)
Implémentation : dépend des optimisations choisies (1-20 jours selon la complexité)

Retour

Court terme (quelques jours) : -20% à -40% sur les 3 skills prioritaires = libérer 3-5 exécutions par fenêtre de 5h
Moyen terme (1-3 mois) : portfolio complet optimisé = passer de "bloqué après 2-3 lancements" à "5-6 lancements libres"
Long terme : vous pouvez expérimenter, tester, itérer sans vous cogner au rate limit toutes les 5 heures

Exemple concret : - Vous lancez 3 skills lourds en production - Consommation initiale : saturé après 2 lancements sur la fenêtre 5h - Après audits et optimisations : -40% de consommation - Résultat : au lieu de bloquer, vous avez 3-4 lancements supplémentaires = productivité retrouvée - Temps investi : 1-2 jours pour les audits + 5-10 jours pour les optimisations prioritaires - ROI : vous pouvez travailler fluide au lieu de gérer des blocages constants

8. Les pièces jointes de cet article

1. Annexe A : Comment utiliser le skill /token_audit

→ spec_token_audit.md

Tout ce qu'il faut savoir pour : - Installer le skill dans votre projet - L'utiliser (même sans savoir programmer) - Interpréter le rapport généré - Connaître les limites (ne mesure que l'usage statique, pas la télémétrie réelle d'exécution)

2. Annexe B : Cas concret — Audit du skill competitor_analyze

→ token_audit_competitor_analyze.md

Lire le rapport réel pour voir : - Table de coûts détaillée par étape - Où les tokens sont "gaspillés" - 5 optimisations proposées avec gain chiffré - Avant/après comparaison

⚠️ Les limites de l'auditeur (à connaître)

L'audit des tokens est puissant, mais il a des frontières importantes. Être honnête à ce sujet, c'est utiliser l'outil correctement.

1. C'est une analyse statique, pas réelle

L'audit lit votre code (SKILL.md, fichiers référencés) et estime les tokens consommés. Il ne lance pas vraiment le skill.

Implication : - Les estimations sont généralement proches de la réalité (±15%), mais pas exactes - Si votre skill contient une boucle conditionnelle ("traiter les analyses uniquement si elles datent de moins de 7 jours"), l'audit considère le pire cas (traiter tout) - Les volumes réels dépendent des données du jour → variables

Quand c'est un problème : - Un skill avec beaucoup de branches conditionnelles → audit peut suresthimer - Un skill qui fait des appels API externes (WebFetch) → volume réel dépend de la taille des pages

2. Pas de télémétrie réelle d'exécution

L'audit n'a pas accès aux métriques d'exécution réelle (combien de tokens a vraiment coûté la dernière exécution ?).

Implication : - Vous n'avez que des estimations, pas des mesures certifiées - Impossible de valider une optimisation avec certitude avant/après sans instrumenter le code

Quand c'est un problème : - Si vous avez besoin d'une validation financière précise → vous devez instrumenter votre code (ajouter du logging de coûts réels) - Si un skill dépasse 1M unités → les écarts deviennent significatifs en euros

3. Ratio de conversion tokens → euros est estimé

L'audit estime "output = 5× le coût de input" (règle Claude). C'est juste en moyenne.

Réalité nuancée : - C'est exact pour Sonnet 4.6 et Opus 4.6 - Mais les tarifs évoluent (new models, pricing changes) - Et les votre contrats clients pourraient avoir des tarifs différents

4. N'améliore pas les choix "business" du skill

L'audit peut dire "tu lis 140 analyses, tu pourrais en lire 50 et faire de l'incrémental".

Mais : "faut-il vraiment faire du mode incrémental ?" C'est une décision business, pas technique.

Exemple : un skill qui revalide TOUS les competitors chaque mois (pas incrémental) : c'est un choix. L'audit le signale, mais la réponse "c'est plus sûr" pourrait être valide.

5. Complexité réelle peut être sous-estimée

L'audit classifie les optimisations par complexité (faible / moyenne / élevée), mais : - Une optimisation "faible" selon l'audit pourrait être "élevée" dans votre codebase (vieux code, dépendances) - Les estimations supposent du code propre et modulaire

Résumé des limites :

Limite	Impact	Solution
Estimations ±15%	décisions erronées si delta < 15%	auditer les gros skills, négliger les petits
Pas de télémétrie réelle	validation impossible sans log	ajouter du monitoring pour les skills critique
Tarifs estimés	écarts de coût possibles	vérifier vos tarifs réels, actualiser l'audit annuellement
Choix business pas inclus	optimisations techniquement bonnes mais métier-mauvaises	audit = recommandation, pas décision
Complexité sous-estimée	effort réel > estimé	ajouter 20% buffer sur les estimations d'effort

Conclusion sur les limites :

L'audit est un outil d'éclairage, pas une machine à prédiction. Ses estimations sont suffisamment bonnes pour prioriser, mais pas suffisantes pour dire "ça va coûter exactement X€".

Utiliser l'audit : - ✅ Pour identifier les fuites évidentes (> 100k tokens) - ✅ Pour prioriser les optimisations (gain ÷ effort) - ✅ Pour justifier des changements d'architecture - ❌ Pour des chiffrages de coût au centime près - ❌ Pour valider des résultats (nécessite du logging réel)

Conclusion

Auditer vos skills, c'est passer du "pourquoi je suis bloqué toutes les 5 heures ?" au "je sais où couper".

C'est l'équivalent d'une audit énergétique pour votre quota : vous découvrez où se font les fuites, vous les colmatez, et soudain vous avez 5-6 lancements fluides au lieu de 2-3 avant blocage.

3 points à retenir : 1. Les tokens qu'on gaspille s'accumulent vite et vous bloquent toutes les 5 heures 2. Sans audit, le gaspillage est invisible — vous arrêtez juste de pouvoir travailler 3. Les optimisations sont simples et l'impact est immédiat (fenêtres productives plus longues)

Prêt à commencer ? Lancez un audit de votre skill le plus fréquent. Vous aurez un rapport en 5 minutes. Les gains viendront après.

Questions fréquentes

Q : Est-ce que l'audit ralentit mes skills ? R : Non. L'audit est une analyse statique (il lit votre code), pas une exécution réelle.

Q : Et si je n'ai que des petits skills ? R : L'audit de petits skills (< 1 500 tokens) ne vaut pas le coup. Focus sur vos 3-5 gros consommateurs.

Q : On peut auditer les skills des concurrents ? R : Impossible (vous n'avez pas accès à leur code). L'audit n'a de sens que pour vos propres skills.

Q : Et si un skill dépasse 500 000 tokens par exécution ? R : C'est un signal d'alerte. Audit prioritaire. Souvent, il y a 40-50% d'économies possibles.

Q : Combien coûte un audit ? R : Zéro (c'est gratuit, intégré à Claude Code). Implémenter les optimisations prend 1-20 jours selon la complexité.

Q : Ça vaut le coup si je suis seul ? R : Oui, encore plus ! Vous êtes directement impacté par le quota. Un skill optimisé = 2-3 semaines de travail au lieu de 1.

Clé JSON	Titre Markdown	Contenu	Comportement fusion
`contexte`	`## Contexte`	Sujet/système de la session (1-2 phrases)	Append (dédupliqué) — plusieurs contextes possibles par jour
`objectif`	`## Objectif`	Ce sur quoi porte la session	Append (dédupliqué)
`problemes`	`## Problèmes rencontrés`	Bugs, blocages, erreurs — avec cause/solution si connue	Append (dédupliqué)
`connaissances`	`## Connaissances acquises`	Faits techniques ou métier appris/confirmés	Append (dédupliqué)
`travail`	`## Travail produit`	Ce qui a été livré, créé, modifié	Append (dédupliqué)
`decisions`	`## Décisions prises`	Choix techniques ou fonctionnels actés	Append (dédupliqué)
`a_suivre`	`## À suivre`	Points ouverts, prochaines étapes	Append (dédupliqué)
`a_suivre_done`	(pas de section propre)	Points de "À suivre" à marquer comme résolus → déplacés vers "Finalisé"	Retrait de "À suivre" + ✅ dans "Finalisé"

Fichier	Règle
`logs/YYYY-MM-DD.md`	Structuré par sections — append de nouveaux bullets sans duplication
`long_memory.md`	Maximum 300 lignes — résumé automatique si dépassement (via `/memory_promotion`)
Archive	Logs > 30 jours déplacés vers `logs/archives/`
`.debug/`	JSON brut Haiku, gitignored, utile pour diagnostic

Composant	Fichier	Déclenchement
Stop hook	`.claude/hooks/memory-session.sh`	Automatique — fin de chaque tour Claude
Skill load	`.claude/skills/memory_load/SKILL.md`	Manuel — `/memory_load [projet]`
Skill promotion	`.claude/skills/memory_promotion/SKILL.md`	Manuel — `/memory_promotion [projet]`

Choix	Décision	Raison
Modèle	Haiku 4.5	Rapide (~1-2s), coût minimal, suffisant pour extraction/classification
Appel Claude depuis `/tmp`	Oui	Le CLAUDE.md du projet hôte interdit à Haiku de répondre en JSON pur
Format intermédiaire	JSON structuré par sections → Python formate le Markdown	Séparation claire extraction/formatage, debug facile
Déduplication	Haiku relit le log existant + append sous la même section	Pas de réécriture/fusion — robuste et simple
`flock`	Optionnel (dégradation gracieuse)	Non installé par défaut sur macOS — `brew install util-linux`
Fichiers temporaires	`mktemp -d` avec `trap EXIT`	Évite l'injection de variables shell dans les heredocs Python
Debug JSON	Copie dans `.debug/` (gitignored)	Diagnostic facile sans polluer le dépôt
Mémoire par projet	Oui	Un workspace peut contenir plusieurs sous-projets indépendants
`long_memory.md` (pas `memory.md`)	Oui	Évite la collision avec les `memory.md` existants dans les sous-projets
`memory_sessions/` (pas `memory/`)	Oui	Évite la collision avec les répertoires `memory/` existants
Versionnement	Oui (dans git)	Portabilité entre machines, historique des mémoires

Prérequis	Détail	Installation
Claude Code CLI	`claude` disponible dans PATH	claude.ai/code
Python 3	Stdlib uniquement (json, pathlib, re) — aucun package tiers	pré-installé macOS / `brew install python`
`flock`	Optionnel (dégradation gracieuse si absent)	`brew install util-linux` (macOS) / pré-installé Linux
Homebrew	Gestionnaire de paquets macOS — nécessaire pour `util-linux`	`/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"`
Dépôt git	Pour la portabilité des fichiers `memory_sessions/`	`git init` ou clone

Bug	Cause	Solution
`--stop-hook-active` invalide	Ce flag n'existe pas dans le CLI `claude` — il est uniquement dans le JSON stdin du hook	Supprimé du call CLI
CLAUDE.md interfère	Quand `claude` est appelé depuis le projet, le CLAUDE.md du projet est injecté et modifie la réponse Haiku	Appeler `claude` depuis `/tmp`
Messages vides extraits	Le transcript JSONL contient beaucoup de messages `tool_result`/`thinking` avec `text` vide	Filtrer sur `content[].type == "text"` et ignorer les messages sans texte réel
`flock` absent (macOS)	`flock` vient de `util-linux`, non installé par défaut sur macOS	Dégradation gracieuse : `if command -v flock` avant d'utiliser
Variable shell dans heredoc Python	`"""$VAR"""` dans un heredoc casse si `$VAR` contient des guillemets ou caractères spéciaux	Utiliser des fichiers temporaires (`mktemp`) passés en arguments
`--no-streaming` invalide	Ce flag n'existe pas dans le CLI `claude`	Supprimé — `--print` suffit

Métrique	Valeur
Tokens input estimés	198 000
Tokens output estimés	56 000
Coût pondéré total	478 000 unités
Étape la plus coûteuse	Phase 5 — Lecture analyses + génération fiches concurrent (31%)
Modèle recommandé	Opus 4.6

Facteur	2026-03-07	2026-03-24	Impact
SKILL.md	18 158 B	27 564 B (+52%)	+2 352 tokens contexte
Analyses en base	88	138 (+57%)	+coût phases 5 et 7
Opt. 1 (frontmatter Python)	non impl.	✓ implémentée	-58 350 unités
Opt. 3 (_index.json delta)	non impl.	✓ implémentée	-52 900 unités
Opt. 2 (fiches incrémentales)	non impl.	non impl.	—
Opt. 4 (thèmes incrémentaux)	non impl.	non impl.	—
Opt. 5 (extraire templates)	non impl.	non impl. + SKILL.md a grossi	coût aggravé

#	Étape	Type	Tokens in	Tokens out	Coût pondéré	% total
0	Contexte système (SKILL.md 27 564 o + CLAUDE.md 934 o)	Input fixe	7 125	0	7 125	1%
0b	Read _index.json (~66 000 o, base 138 analyses)	Read	16 500	0	16 500	3%
1-2	Scan + validation data/in/	Bash + Raison	0	50	250	0%
3a	Read documents source (×5, avg 5 000 tok)	Read	25 000	0	25 000	5%
3b	Read template analysis-prompt.md (×5)	Read	2 550	0	2 550	1%
3d-f	Génération 5 analyses (avg 2 334 tok)	Write	0	11 670	58 350	12%
3bis-b	Classification thèmes + AskUser (×5)	Raisonnement	0	500	2 500	1%
3bis-c	update_frontmatter.py (×5)	Bash (Python)	0	0	0	0%
4	Récapitulatif tableau	Write	0	500	2 500	1%
5a-b	Read TOUTES analyses 3 concurrents (138 total, 3 affectés)	Read	102 180	0	102 180	21%
5c	Read fiches existantes (×2)	Read	6 928	0	6 928	1%
5d-e	Génération/régénération 3 fiches	Write	0	10 392	51 960	11%
6	Analyses temporelles (×2 trimestres)	Write	0	375	1 875	0%
7a	Read définitions thèmes (×5)	Read	2 031	0	2 031	0%
7b	Read analyses par thème (×5, ~18 analyses/thème)	Read	40 500	0	40 500	8%
7c	Génération 5 analyses thématiques	Write	0	13 565	67 825	14%
7bis	update_index.py delta (Python)	Bash (Python)	0	0	0	0%
7bis-write	Write _index_delta.json (delta uniquement, ~3 000 o)	Write	0	750	3 750	1%
7ter	Regénération 5 README	Write	0	625	3 125	1%
8	Messages conversation utilisateur	Input	3 670	0	3 670	1%
Total			206 484	38 427	~398 619

Type	Nombre	Taille totale	Tokens moyens
Analyses individuelles	138	~1 287 000 B	~2 334
Fiches concurrent	8	~110 840 B	~3 464
Analyses thématiques	estimé 25	~271 250 B	~2 713
Analyses temporelles	estimé 12	~8 988 B	~187
_index.json	1	~66 385 B	~16 596

Scénario	Tokens in	Tokens out	Coût pondéré	Gain vs précédent audit
Précédent (2026-03-07, 88 analyses)	182 001	80 650	585 251	référence
Actuel (2026-03-24, 138 analyses, opt 1+3 impl.)	206 484	38 427	398 619	-32%
Optimisé (opt. 3+4+5 restantes)	101 000	34 000	271 000	-54% vs précédent

Pourquoi auditer vos Skills : Maîtrisez les limites de tokens cachés

Accroche

1. Qu'est-ce qu'un token, vraiment ?

2. Les pièges : pourquoi vous saturez rapidement vos limites

Piège 1 : Lire beaucoup pour en utiliser peu

Piège 2 : Faire tout à la main ce que Python pourrait faire

Piège 3 : Relire et réécrire à chaque exécution

Piège 4 : Gonfler le contexte système

Piège 5 : Utiliser un modèle surpuissant pour une tâche simple

3. Les risques du non-audit

📊 Risque de quota

⏱️ Risque de productivité

🚀 Risque de scalabilité

⚙️ Risque opérationnel

4. Comment ça marche : Auditer en 3 phases

Phase 1 : Cartographier

Phase 2 : Mesurer

Phase 3 : Recommander

5. Exemple réel : competitor_analyze

6. Plan d'action pour votre équipe (ou pour vous, si vous êtes seul)

Étape 1 : Quels skills auditer ?

Étape 2 : Lancer l'audit

Étape 3 : Lire le rapport

Étape 4 : Décider quoi optimiser

Étape 5 : Implémenter et valider

Fréquence recommandée (réaliste pour une personne)

7. ROI : Pourquoi c'est worth it

Investissement

Retour

8. Les pièces jointes de cet article

1. Annexe A : Comment utiliser le skill /token_audit

2. Annexe B : Cas concret — Audit du skill competitor_analyze

⚠️ Les limites de l'auditeur (à connaître)

1. C'est une analyse statique, pas réelle

2. Pas de télémétrie réelle d'exécution

3. Ratio de conversion tokens → euros est estimé

4. N'améliore pas les choix "business" du skill

5. Complexité réelle peut être sous-estimée

Conclusion

Questions fréquentes

Log session — 2026-03-22

Contexte

Objectif

Connaissances acquises

Travail produit

Décisions prises

À suivre

Finalisé

Spec : système memory_sessions

Modèle d'installation

Présentation

Pourquoi ce système ?

Inspiration : OpenClaw

Architecture

Structure de fichiers

Format du log quotidien

Format JSON intermédiaire (Haiku → Python)

Gestion "OK-done"

Debug JSON

Règles de taille

Composants

Flux du hook

Format JSONL du transcript Claude Code

Anti-boucle

Choix d'implémentation

Prérequis

Installation complète sur macOS

Installation dans un nouveau projet

Étape 1 — Copier le hook

Étape 2 — Adapter la liste des projets

Étape 3 — Enregistrer le hook dans settings.json

Étape 4 — Créer les répertoires et configurer .gitignore

Étape 5 — Copier les skills (optionnel mais recommandé)

Skills

/memory_load [projet]

/memory_promotion [projet]

Code complet

.claude/hooks/memory-session.sh

.claude/skills/memory_load/SKILL.md

.claude/skills/memory_promotion/SKILL.md

`/memory_load [projet]`

`/memory_promotion [projet]`

`.claude/hooks/memory-session.sh`

`.claude/skills/memory_load/SKILL.md`

`.claude/skills/memory_promotion/SKILL.md`

1. `.claude/skills/token_audit/SKILL.md`

3. Ligne à ajouter dans `docs/skills/README.md`