Du fichier unique au système de contextes : pourquoi la mémoire d'un LLM ne tient pas dans un seul document

Publié le 2026-04-21 · Laurent D.

Le besoin

Travailler avec un LLM sur un sujet complexe — une opportunité produit, une veille stratégique, une discovery — dépasse rapidement la simple conversation. On accumule des sources, des décisions, des hypothèses, des contradictions. On revient le lendemain et le LLM a tout oublié. On copie-colle un fichier context.md de plus en plus gros, et à un moment, ça ne tient plus.

Le problème n'est pas que le LLM manque d'intelligence. C'est qu'il manque de mémoire structurée.

Comment j'en suis arrivé là

J'ai commencé comme tout le monde. Sur ChatGPT, en discutant. Le problème est apparu vite : à chaque échange, l'IA régénérait l'intégralité du document. Ou alors seulement une partie, mais sans accès à ce qu'il y avait avant. Je lui disais "montre-moi ce qu'on a fait plus haut", il régénérait tout, on perdait un temps fou, et le contenu finissait par diverger.

L'étape suivante a été de passer sur Claude Code — un outil qui permet de discuter avec un LLM tout en le laissant écrire directement dans un fichier Markdown. De temps en temps, je lui demandais de restructurer, je pouvais relire facilement, voire modifier moi-même dans le texte. C'était mieux. Mais un long fichier, ça ne suffisait toujours pas.

Et surtout, un problème de fond est apparu : le fichier est soit organisé pour l'humain, soit pour l'IA — jamais pour les deux. L'IA a besoin de repères pour reprendre une session là où elle s'est arrêtée, mémoriser des décisions, retrouver des sources. L'humain a besoin d'agréger l'information, la valider, la découper par thème ou par risque. Pas la même structure, pas les mêmes besoins.

Alors j'ai eu deux fichiers. Un pour l'IA, un pour l'humain. Ça a tenu un moment. Mais les deux ont fini par enfler, et il y avait un peu de tout dans chacun — des sources, des décisions, des hypothèses, des directives, mélangées dans le même flux.

J'ai commencé à découper. Un fichier de directives à part, qui ne parle pas d'une feature mais de la façon dont l'IA doit travailler. Puis un fichier de définitions. Puis d'autres. Et à un moment, le déclic : il ne fallait plus penser en fichiers, mais en système d'organisation. Et puisque les LLM sont inspirés du cerveau humain, peut-être que leur mémoire devait l'être aussi.

Voici, en version simplifiée, ce à quoi ressemble un contexte structuré :

<contexte>/
├── 00_mission/
│   ├── mission.md            ← pourquoi on est là
│   ├── directives.md         ← comment l'IA doit travailler
│   └── load_manifest.json    ← quoi charger, dans quel ordre
├── 01_active/
│   ├── active.md             ← état courant + plan
│   └── decisions.md          ← décisions prises et pourquoi
├── 02_checkpoints/           ← photos d'étape du contexte
├── 03_sources/
│   └── source_catalog.md     ← index des sources brutes
├── 04_notes/                 ← notes atomiques, reliées entre elles
├── 05_memory/
│   ├── journal/              ← ce qui s'est passé (épisodique)
│   └── synthesis.md          ← ce qu'on en retient (long terme)
└── 07_outputs/               ← livrables produits

Chaque dossier a un rôle précis. Rien n'est mélangé. Et surtout, on ne charge pas tout à chaque session — on charge le noyau (00_mission + 01_active), et le reste à la demande.

Ce qui compte vraiment, c'est le contexte

Mais avant de détailler pourquoi cette structure fonctionne, il faut poser une vérité plus large.

Ce qui fait qu'on excelle dans un domaine, c'est rarement la technique. C'est la profondeur du contexte qu'on a intériorisé.

Un bon commercial ne vend pas mieux parce qu'il maîtrise un script. Il vend mieux parce qu'il comprend les enjeux de son client — ses contraintes, ses peurs, son vocabulaire, ce qu'il ne dit pas. Un bon product manager ne fait pas un meilleur produit parce qu'il connaît les frameworks. Il le fait parce qu'il a compris le contexte de l'utilisateur — ses habitudes, ses frictions, ce qu'il contourne faute de mieux. Un sociologue ne comprend pas un mouvement social en lisant des statistiques. Il le comprend en saisissant le contexte vécu d'un groupe — ses codes, ses tensions internes, son rapport au monde.

Le contexte, c'est ce qui transforme de l'information en compréhension. Le reste — la décision, l'action, la production — en découle presque mécaniquement.

Et c'est exactement ce qui manque quand on travaille avec un LLM sur un sujet qui dure.

On ne peut pas tout mettre dans un seul fichier

Un cerveau humain ne fonctionne pas en chargeant tout ce qu'il sait à chaque instant. Il décompose. Il range. Il sépare ce qui est stable de ce qui est en cours. Il distingue une source brute d'une conviction personnelle. Il oublie les détails pour garder les patterns.

Un LLM, c'est pareil — mais en pire. Sa fenêtre de contexte est finie. Et plus on la remplit, plus son attention se dégrade sur ce qui est enfoui au milieu. Ce n'est pas une intuition : des chercheurs de Stanford l'ont démontré dans Lost in the Middle (Liu et al., 2024). Leur conclusion : un LLM retrouve bien mieux une information placée au début ou à la fin de son contexte qu'une information enfouie au milieu. Charger un fichier de 3000 lignes en espérant qu'il "comprenne tout", c'est comme lire un livre entier à voix haute à quelqu'un en lui demandant de retenir chaque phrase.

Ce qu'il faut, c'est charger seulement ce qui compte pour la tâche en cours. Et pour ça, il faut avoir découpé le savoir en morceaux navigables.

Charger le minimum, avec le maximum d'impact

Si le problème est clair — on ne peut pas tout charger — la question devient : que charger, et comment ?

La solution, c'est d'avoir un noyau compact qu'on charge systématiquement : la mission (pourquoi on est là), l'état courant (où on en est), le plan (où on va), les décisions prises, les contradictions ouvertes, et une fiche de reprise. Ce noyau tient en quelques fichiers courts. Il donne au LLM tout ce qu'il faut pour être opérationnel immédiatement, sans bruit.

Ensuite, selon le besoin de la session, on charge à la demande : une source précise qu'on veut analyser, une note qu'on veut enrichir, un checkpoint ancien qu'on veut comparer. Le reste — les dizaines de sources, les notes atomiques, les journaux de session — reste sur disque, accessible mais pas dans la fenêtre de contexte.

Pour que ça fonctionne, il faut un mécanisme qui dise à l'IA quoi charger, dans quel ordre, et avec quelle priorité. C'est le rôle d'un manifeste de chargement — une sorte de playlist de contexte. En premier : la mission et l'état courant (le noyau, toujours). Ensuite : les fichiers recommandés selon la phase en cours. Enfin : les fichiers disponibles mais chargés uniquement si la session le nécessite. C'est un plateau de chirurgien : les instruments essentiels sont déjà là, les autres sont à portée de main, mais on ne met pas tout sur la table.

C'est exactement ce que fait un expert humain. Il ne relit pas tout son dossier à chaque réunion. Il a intériorisé l'essentiel, et il va chercher un document précis quand il en a besoin. La différence, c'est qu'un LLM ne peut pas intérioriser — il n'a que ce qu'on lui donne. D'où l'importance de lui donner le bon sous-ensemble, pas tout.

Séparer les sources de ce qu'on produit

Une erreur fréquente : tout mélanger. La transcription d'une interview, l'hypothèse qu'on en tire, la décision qu'on prend, le livrable qu'on génère — tout dans le même fichier, dans le même flux.

Le problème, c'est la traçabilité. Quand tout est mélangé, on ne sait plus ce qui vient d'où. On ne sait plus si une affirmation est un fait sourcé ou une interprétation. On ne sait plus si une décision est encore valide ou si elle a été remplacée.

Séparer les sources (la matière brute) de la mémoire (ce qu'on en retient) et des productions (ce qu'on livre) n'est pas de la bureaucratie. C'est ce qui permet de garder un raisonnement fiable sur la durée.

Un contexte bien structuré produit plus que ce qu'on lui demande

Un problème classique en product management : on écrit beaucoup de documents, mais on ne retrouve jamais ce qu'on veut. Les notes de discovery dorment dans un Google Doc. Le brief produit est dans un Notion. Le compte-rendu de la réunion stratégique est quelque part dans Slack. L'information existe, mais elle est dispersée, non reliée, inutilisable.

Quand on structure un contexte autour d'un sujet — en séparant les sources, les notes, les décisions, la mémoire — quelque chose de puissant se produit. Ce contexte devient un socle réutilisable. À partir du même noyau de connaissances, on peut générer des livrables très différents : un brief release, des user stories, un communication pack (résumé, newsletter, post LinkedIn), une présentation pour le comité de direction.

On ne réécrit pas tout à chaque fois. On combine les bonnes briques du contexte pour répondre à un besoin précis. Le LLM n'invente rien — il assemble ce qui est déjà là, avec la bonne granularité et le bon angle. C'est la différence entre dicter un document à partir de zéro et demander à un assistant qui connaît déjà tout le dossier de le décliner sous un nouveau format.

C'est là que la structuration passe de "bonne pratique" à avantage réel : un contexte bien organisé n'est pas juste lisible, il est productif.

La fin du séquentiel

Le product management classique fonctionne en phases : on fait la discovery, puis on rédige les specs, puis on livre, puis on communique. Chaque étape attend la précédente. C'est propre sur un diagramme, mais c'est lent — et ça ne reflète pas la réalité du terrain.

Avec un système de contextes et un LLM, ce séquencement saute. La discovery ne s'arrête jamais vraiment. On dialogue en continu avec l'IA pour affiner, challenger, reformuler. Le contexte mûrit en permanence, et les livrables s'améliorent au fil de cette maturation — pas à la fin d'une phase, mais pendant. On peut sortir un premier brief dès la deuxième session, le faire évoluer à mesure que le contexte s'enrichit, et le livrable final n'est que la dernière itération d'un document qui a grandi avec la réflexion.

Mais l'effet le plus intéressant est ailleurs. Quand on travaille ainsi, on ouvre beaucoup de contextes. Des opportunités produit, des explorations, des veilles. Certains ne deviendront jamais une fonctionnalité. Ils ne "servent à rien" au sens classique du terme. Sauf que ces contextes ne sont pas isolés. Ils sont connexes. Une exploration sur les habitudes de maintenance industrielle nourrit une réflexion sur la gestion d'actifs. Une veille sur les modèles de pricing SaaS éclaire une opportunité sur la monétisation d'un module. Trois contextes qui semblaient indépendants convergent un jour vers un quatrième, qui n'aurait jamais été aussi riche sans eux.

C'est un changement de posture. On ne travaille plus en mode "une idée → un livrable". On cultive un réseau de contextes qui se fertilisent mutuellement. Et le jour où une décision produit doit être prise, le terreau est déjà là.

Des idées précises, reliées entre elles

Ce réseau de contextes fonctionne à grande échelle. Mais à l'intérieur de chaque contexte, le même principe s'applique à l'échelle des idées.

Ce qui fait l'intelligence — humaine ou artificielle — ce n'est pas d'accumuler du savoir. C'est de relier des idées précises entre elles. Et surtout des idées éloignées.

Un exemple. Dans le domaine de l'optimisation des emplois du temps — affecter des salles, des ressources, des créneaux sous contraintes multiples — une des approches les plus efficaces s'appelle le recuit simulé. En 1983, Kirkpatrick, Gelatt et Vecchi publient dans Science un article fondateur : ils montrent qu'un procédé de métallurgie — chauffer un métal puis le refroidir lentement pour que ses atomes trouvent une configuration stable — peut être transposé en algorithme d'optimisation combinatoire. Aucun rapport évident entre une fonderie et un planning de salles — et pourtant, ce transfert a changé tout un champ de recherche. Le lien existe, à condition de l'avoir capté.

C'est exactement la promesse du Zettelkasten — ce système de notes atomiques inventé par le sociologue allemand Niklas Luhmann, qui décrivait sa boîte à fiches comme un « partenaire de communication » (Luhmann, 1981). Chaque idée est isolée, précise, et reliée explicitement à d'autres. On ne stocke pas des blocs de texte. On stocke des unités de pensée, chacune avec ses liens. Et c'est dans ces liens que l'intelligence émerge : quand une note sur un phénomène physique croise une note sur un problème d'ordonnancement, quand une observation terrain rejoint une hypothèse théorique lue six mois plus tôt.

Appliqué à un système de contextes pour LLM, ça veut dire : ne pas écrire de longues synthèses monolithiques, mais des notes courtes, bien titrées, bien reliées. Chaque note est un point. Le réseau de liens entre ces points, c'est la carte. Et c'est cette carte qui permet — à un humain comme à un LLM — de faire des connexions qu'un fichier plat ne permettrait jamais.

C'est d'ailleurs l'intuition derrière A-MEM (Xu et al., 2025) — un système de mémoire pour agents LLM directement inspiré du Zettelkasten. Des notes structurées, indexées dynamiquement, reliées entre elles. Une architecture qui donne à l'IA les moyens de naviguer dans sa propre mémoire plutôt que de tout charger d'un bloc.

Mémoire courte, mémoire longue, et le droit de remonter le fil

Un cerveau humain n'a pas une seule mémoire. Il en a plusieurs, qui fonctionnent à des échelles de temps différentes. C'est ce qu'Atkinson et Shiffrin ont formalisé dès 1968 avec leur modèle multi-stores : un registre sensoriel, une mémoire à court terme, une mémoire à long terme. Endel Tulving a ensuite affiné la distinction en 1972 en séparant mémoire épisodique et mémoire sémantique. Concrètement : la mémoire de travail retient ce qui se passe maintenant — une conversation, un calcul en cours. La mémoire épisodique stocke les événements vécus — ce qu'on a fait mardi, ce que le client a dit en réunion. Et la mémoire à long terme consolide les vérités durables — les réflexes, les convictions, les patterns qu'on a intériorisés à force d'expérience. Un conducteur expérimenté ne réfléchit plus à comment passer une vitesse. Un product manager senior ne redécouvre pas à chaque projet que les utilisateurs mentent en interview. Ces savoirs sont devenus des automatismes.

Un système de contextes pour LLM reproduit cette architecture. Le journal de session, c'est la mémoire épisodique : ce qui s'est passé, quand, dans quel ordre. La synthèse consolidée, c'est la mémoire à long terme : les conclusions stables, les décisions validées, les patterns extraits de dizaines de sessions. Et les checkpoints sont les photos d'étape — l'état complet du contexte à un instant donné.

Mais il y a une différence fondamentale avec le cerveau humain. Un cerveau oublie — c'est même sa force, ça lui évite de saturer. Un système de fichiers, lui, n'oublie rien. Et c'est là que l'auditabilité entre en jeu. Dans un système bien structuré, chaque information raffinée — une conviction produit, une décision stratégique, une hypothèse validée — peut être retracée. De la synthèse, on remonte au checkpoint qui l'a produite. Du checkpoint, on remonte aux sessions. Des sessions, on remonte aux sources brutes — l'interview, l'article, la donnée.

C'est le même principe qu'en science : une conclusion n'a de valeur que si on peut remonter à la méthode et aux données qui l'ont produite. Quand un stakeholder demande "pourquoi cette décision ?", la réponse n'est pas "parce que l'IA l'a dit". C'est "voici le chemin : source → analyse → synthèse → décision". Tout est traçable, tout est vérifiable. La mémoire n'est pas une boîte noire — c'est une chaîne de preuves.

Ce que ça change concrètement

Avant, mon métier de product manager consistait pour une bonne part à produire des documents. Beaucoup de documentation. Certaines pièces faisaient appel à de l'expertise — cadrage stratégique, arbitrages d'architecture, priorisation. Mais beaucoup d'autres étaient de la production de contenu à partir d'information déjà existante : documentation support, articles de blog, newsletters, notes de release, communication interne. Du travail nécessaire, mais largement automatisable dès lors qu'on dispose d'un contexte solide.

Aujourd'hui, c'est en cours d'automatisation. Pas parce que l'IA est "magique", mais parce qu'un contexte fort, cohérent et complet permet de générer ces livrables de manière quasi autonome. La documentation support se déduit des décisions et des specs. La newsletter se construit à partir des notes de release et du contexte produit. Certains livrables sont automatisés à près de 100 %. D'autres — les user stories, par exemple — demandent encore une relecture humaine, mais le premier jet est déjà solide.

Le changement le plus profond n'est pas dans la production. C'est dans la matière première. Avant, on écrivait des documents pour faire des produits. On rédigeait des livrables pour pouvoir livrer du logiciel. C'était le livrable qui comptait — le document final, figé, validé.

Aujourd'hui, on écrit des contextes. On discute avec l'IA — souvent à voix haute, devant son écran — pour créer, enrichir, affiner du contexte. Le livrable n'est plus le point de départ du travail, c'est un sous-produit. Ce qui a de la valeur, c'est le contexte lui-même — et comme on l'a vu, le réseau de contextes connexes qui se fertilisent entre eux.

Vers quoi ça mène

Ce qui se dessine, c'est un changement de posture du product manager. On passe de quelqu'un qui fait beaucoup de choses seul — discovery, specs, communication, coordination — à quelqu'un qui manage une équipe d'IA. On discute, on explique du contexte, on challenge les résultats, on arbitre. Le quotidien ressemble moins à de la rédaction et plus à du management.

Et c'est un exercice exigeant. Expliquer un contexte à une IA qui n'y connaît rien, c'est se forcer à vérifier qu'on le comprend soi-même. Réexpliquer, reformuler, préciser — c'est un miroir impitoyable. Si le contexte est flou dans votre tête, le résultat sera flou. L'IA ne compense pas l'approximation, elle l'amplifie.

Naval Ravikant parle de specific knowledge — ce savoir qui ne peut pas s'enseigner, qui ne se réduit pas à un process. On peut enseigner la comptabilité. On peut même l'automatiser, la confier à une IA. Mais il existe des compétences qu'on ne sait pas formaliser. Pourquoi telle personne est excellente dans un domaine qu'on n'arrive pas à reproduire ? C'est du savoir spécifique — construit par l'expérience, l'intuition, le contexte vécu.

Je crois que c'est là que l'humain se recentre. L'IA prend en charge ce qui est formalisable : la production de contenu, l'agrégation, la mise en forme. L'humain garde ce qui ne l'est pas : l'opinion. Parce que faire du produit, c'est croiser des données quantitatives et qualitatives, c'est recouper des signaux faibles — mais à la fin, c'est avoir une conviction. Et une conviction, ça ne se délègue pas.

Avoir une opinion, c'est même parfois prendre des risques démesurés. Dans une startup, certains choisissent d'avoir 1 ou 2 % de chances de devenir une licorne — et 99 % de chances de mourir. Quelle IA prendrait cette décision ? Prendre des risques, tenir des positions tranchées, parier sur une vision que les données ne valident pas encore — une IA ne sait pas faire ça. Pas aujourd'hui, en tout cas. Et c'est précisément ce qui donne à un éditeur de logiciel sa culture, sa couleur, son ADN. Ce qui fait qu'un produit n'est pas interchangeable avec un autre, même quand les features se ressemblent. Ce n'est pas l'IA qui crée cette différence — c'est l'humain derrière.

Ce système de contextes n'est pas une fin en soi. C'est un outil pour que l'humain puisse se concentrer sur ce qu'il fait de mieux — penser, décider, avoir un point de vue — en déléguant le reste à une IA qui a enfin les moyens de se souvenir.

Ce système gère l'amont — la réflexion, la structuration, la décision. Mais côté aval, une autre transformation est en cours.

Nous l'avons tous vécu : une documentation est produite au moment de la spécification, puis le développement avance, des arbitrages sont rendus, des ajustements se font en cours de route — et personne n'a le temps de revenir mettre à jour chaque spec, chaque changelog, chaque document de support. Le résultat est toujours le même : la documentation et le code finissent par diverger. Plus le produit vieillit, plus l'écart se creuse.

Aujourd'hui, l'IA permet d'inverser ce flux. Quand le code est suffisamment propre et documenté, on peut en faire la source à partir de laquelle tout le reste se reconstruit : remettre à jour une documentation de support après une livraison, générer un changelog plus fiable, ou reconstituer une spécification fonctionnelle à partir de l'état réel du produit plutôt qu'à partir d'un document ancien.

C'est ce qu'on peut appeler une approche code centric. Le code n'est plus seulement le livrable final — il devient l'élément central, la source de vérité autour de laquelle gravitent et se régénèrent les autres artefacts du produit. La même logique vaut pour le design : si on est capable de reconstruire un design system à partir du code réel et de le maintenir à jour, la maquette change de statut — elle ne reste plus une représentation figée, elle devient une base exploitable.

J'explore cette idée plus en détail dans cet article.

Clé JSON	Titre Markdown	Contenu	Comportement fusion
`contexte`	`## Contexte`	Sujet/système de la session (1-2 phrases)	Append (dédupliqué) — plusieurs contextes possibles par jour
`objectif`	`## Objectif`	Ce sur quoi porte la session	Append (dédupliqué)
`problemes`	`## Problèmes rencontrés`	Bugs, blocages, erreurs — avec cause/solution si connue	Append (dédupliqué)
`connaissances`	`## Connaissances acquises`	Faits techniques ou métier appris/confirmés	Append (dédupliqué)
`travail`	`## Travail produit`	Ce qui a été livré, créé, modifié	Append (dédupliqué)
`decisions`	`## Décisions prises`	Choix techniques ou fonctionnels actés	Append (dédupliqué)
`a_suivre`	`## À suivre`	Points ouverts, prochaines étapes	Append (dédupliqué)
`a_suivre_done`	(pas de section propre)	Points de "À suivre" à marquer comme résolus → déplacés vers "Finalisé"	Retrait de "À suivre" + ✅ dans "Finalisé"

Fichier	Règle
`logs/YYYY-MM-DD.md`	Structuré par sections — append de nouveaux bullets sans duplication
`long_memory.md`	Maximum 300 lignes — résumé automatique si dépassement (via `/memory_promotion`)
Archive	Logs > 30 jours déplacés vers `logs/archives/`
`.debug/`	JSON brut Haiku, gitignored, utile pour diagnostic

Composant	Fichier	Déclenchement
Stop hook	`.claude/hooks/memory-session.sh`	Automatique — fin de chaque tour Claude
Skill load	`.claude/skills/memory_load/SKILL.md`	Manuel — `/memory_load [projet]`
Skill promotion	`.claude/skills/memory_promotion/SKILL.md`	Manuel — `/memory_promotion [projet]`

Choix	Décision	Raison
Modèle	Haiku 4.5	Rapide (~1-2s), coût minimal, suffisant pour extraction/classification
Appel Claude depuis `/tmp`	Oui	Le CLAUDE.md du projet hôte interdit à Haiku de répondre en JSON pur
Format intermédiaire	JSON structuré par sections → Python formate le Markdown	Séparation claire extraction/formatage, debug facile
Déduplication	Haiku relit le log existant + append sous la même section	Pas de réécriture/fusion — robuste et simple
`flock`	Optionnel (dégradation gracieuse)	Non installé par défaut sur macOS — `brew install util-linux`
Fichiers temporaires	`mktemp -d` avec `trap EXIT`	Évite l'injection de variables shell dans les heredocs Python
Debug JSON	Copie dans `.debug/` (gitignored)	Diagnostic facile sans polluer le dépôt
Mémoire par projet	Oui	Un workspace peut contenir plusieurs sous-projets indépendants
`long_memory.md` (pas `memory.md`)	Oui	Évite la collision avec les `memory.md` existants dans les sous-projets
`memory_sessions/` (pas `memory/`)	Oui	Évite la collision avec les répertoires `memory/` existants
Versionnement	Oui (dans git)	Portabilité entre machines, historique des mémoires

Prérequis	Détail	Installation
Claude Code CLI	`claude` disponible dans PATH	claude.ai/code
Python 3	Stdlib uniquement (json, pathlib, re) — aucun package tiers	pré-installé macOS / `brew install python`
`flock`	Optionnel (dégradation gracieuse si absent)	`brew install util-linux` (macOS) / pré-installé Linux
Homebrew	Gestionnaire de paquets macOS — nécessaire pour `util-linux`	`/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"`
Dépôt git	Pour la portabilité des fichiers `memory_sessions/`	`git init` ou clone

Bug	Cause	Solution
`--stop-hook-active` invalide	Ce flag n'existe pas dans le CLI `claude` — il est uniquement dans le JSON stdin du hook	Supprimé du call CLI
CLAUDE.md interfère	Quand `claude` est appelé depuis le projet, le CLAUDE.md du projet est injecté et modifie la réponse Haiku	Appeler `claude` depuis `/tmp`
Messages vides extraits	Le transcript JSONL contient beaucoup de messages `tool_result`/`thinking` avec `text` vide	Filtrer sur `content[].type == "text"` et ignorer les messages sans texte réel
`flock` absent (macOS)	`flock` vient de `util-linux`, non installé par défaut sur macOS	Dégradation gracieuse : `if command -v flock` avant d'utiliser
Variable shell dans heredoc Python	`"""$VAR"""` dans un heredoc casse si `$VAR` contient des guillemets ou caractères spéciaux	Utiliser des fichiers temporaires (`mktemp`) passés en arguments
`--no-streaming` invalide	Ce flag n'existe pas dans le CLI `claude`	Supprimé — `--print` suffit

Métrique	Valeur
Tokens input estimés	198 000
Tokens output estimés	56 000
Coût pondéré total	478 000 unités
Étape la plus coûteuse	Phase 5 — Lecture analyses + génération fiches concurrent (31%)
Modèle recommandé	Opus 4.6

Facteur	2026-03-07	2026-03-24	Impact
SKILL.md	18 158 B	27 564 B (+52%)	+2 352 tokens contexte
Analyses en base	88	138 (+57%)	+coût phases 5 et 7
Opt. 1 (frontmatter Python)	non impl.	✓ implémentée	-58 350 unités
Opt. 3 (_index.json delta)	non impl.	✓ implémentée	-52 900 unités
Opt. 2 (fiches incrémentales)	non impl.	non impl.	—
Opt. 4 (thèmes incrémentaux)	non impl.	non impl.	—
Opt. 5 (extraire templates)	non impl.	non impl. + SKILL.md a grossi	coût aggravé

#	Étape	Type	Tokens in	Tokens out	Coût pondéré	% total
0	Contexte système (SKILL.md 27 564 o + CLAUDE.md 934 o)	Input fixe	7 125	0	7 125	1%
0b	Read _index.json (~66 000 o, base 138 analyses)	Read	16 500	0	16 500	3%
1-2	Scan + validation data/in/	Bash + Raison	0	50	250	0%
3a	Read documents source (×5, avg 5 000 tok)	Read	25 000	0	25 000	5%
3b	Read template analysis-prompt.md (×5)	Read	2 550	0	2 550	1%
3d-f	Génération 5 analyses (avg 2 334 tok)	Write	0	11 670	58 350	12%
3bis-b	Classification thèmes + AskUser (×5)	Raisonnement	0	500	2 500	1%
3bis-c	update_frontmatter.py (×5)	Bash (Python)	0	0	0	0%
4	Récapitulatif tableau	Write	0	500	2 500	1%
5a-b	Read TOUTES analyses 3 concurrents (138 total, 3 affectés)	Read	102 180	0	102 180	21%
5c	Read fiches existantes (×2)	Read	6 928	0	6 928	1%
5d-e	Génération/régénération 3 fiches	Write	0	10 392	51 960	11%
6	Analyses temporelles (×2 trimestres)	Write	0	375	1 875	0%
7a	Read définitions thèmes (×5)	Read	2 031	0	2 031	0%
7b	Read analyses par thème (×5, ~18 analyses/thème)	Read	40 500	0	40 500	8%
7c	Génération 5 analyses thématiques	Write	0	13 565	67 825	14%
7bis	update_index.py delta (Python)	Bash (Python)	0	0	0	0%
7bis-write	Write _index_delta.json (delta uniquement, ~3 000 o)	Write	0	750	3 750	1%
7ter	Regénération 5 README	Write	0	625	3 125	1%
8	Messages conversation utilisateur	Input	3 670	0	3 670	1%
Total			206 484	38 427	~398 619

Type	Nombre	Taille totale	Tokens moyens
Analyses individuelles	138	~1 287 000 B	~2 334
Fiches concurrent	8	~110 840 B	~3 464
Analyses thématiques	estimé 25	~271 250 B	~2 713
Analyses temporelles	estimé 12	~8 988 B	~187
_index.json	1	~66 385 B	~16 596

Scénario	Tokens in	Tokens out	Coût pondéré	Gain vs précédent audit
Précédent (2026-03-07, 88 analyses)	182 001	80 650	585 251	référence
Actuel (2026-03-24, 138 analyses, opt 1+3 impl.)	206 484	38 427	398 619	-32%
Optimisé (opt. 3+4+5 restantes)	101 000	34 000	271 000	-54% vs précédent

Du fichier unique au système de contextes : pourquoi la mémoire d'un LLM ne tient pas dans un seul document

Le besoin

Comment j'en suis arrivé là

Ce qui compte vraiment, c'est le contexte

On ne peut pas tout mettre dans un seul fichier

Charger le minimum, avec le maximum d'impact

Séparer les sources de ce qu'on produit

Un contexte bien structuré produit plus que ce qu'on lui demande

La fin du séquentiel

Des idées précises, reliées entre elles

Mémoire courte, mémoire longue, et le droit de remonter le fil

Ce que ça change concrètement

Vers quoi ça mène

Log session — 2026-03-22

Contexte

Objectif

Connaissances acquises

Travail produit

Décisions prises

À suivre

Finalisé

Spec : système memory_sessions

Modèle d'installation

Présentation

Pourquoi ce système ?

Inspiration : OpenClaw

Architecture

Structure de fichiers

Format du log quotidien

Format JSON intermédiaire (Haiku → Python)

Gestion "OK-done"

Debug JSON

Règles de taille

Composants

Flux du hook

Format JSONL du transcript Claude Code

Anti-boucle

Choix d'implémentation

Prérequis

Installation complète sur macOS

Installation dans un nouveau projet

Étape 1 — Copier le hook

Étape 2 — Adapter la liste des projets

Étape 3 — Enregistrer le hook dans settings.json

Étape 4 — Créer les répertoires et configurer .gitignore

Étape 5 — Copier les skills (optionnel mais recommandé)

Skills

/memory_load [projet]

/memory_promotion [projet]

Code complet

.claude/hooks/memory-session.sh

.claude/skills/memory_load/SKILL.md

.claude/skills/memory_promotion/SKILL.md

Bugs connus et solutions

Spec : skill token_audit

Modèle d'installation

Présentation

Prérequis projet

Fichiers à créer

1. .claude/skills/token_audit/SKILL.md

Étape 7 — Mettre à jour l'index README.md

Gestion des erreurs

3. Ligne à ajouter dans docs/skills/README.md

Instructions d'installation

Test de validation

Audit tokens : competitor_analyze

Résumé

Évolution depuis l'audit 2026-03-07

Détail par étape

Tailles de référence actualisées

Optimisations proposées

1. ✓ Déjà implémentée — Frontmatter Python (étape 3bis-c)

2. ✓ Déjà implémentée — _index.json delta Python (étape 7bis)

3. Synthèse incrémentale des fiches concurrent — Gain estimé : ~14%

4. Analyses thématiques incrémentales — Gain estimé : ~10%

5. Réduire le SKILL.md — Gain estimé : ~4%

Bilan

`/memory_load [projet]`

`/memory_promotion [projet]`

`.claude/hooks/memory-session.sh`

`.claude/skills/memory_load/SKILL.md`

`.claude/skills/memory_promotion/SKILL.md`

1. `.claude/skills/token_audit/SKILL.md`

3. Ligne à ajouter dans `docs/skills/README.md`