
Полная версия
Mick Prod — Cognitive OS. Книга о памяти, длительности и рождении личных ИИ-систем
В этом и состоит один из самых неприятных эффектов нынешнего века ИИ. Слабая система утомляет своей глупостью. Сильная система без собственной биографии утомляет иначе: она показывает почти настоящую близость к пониманию, а затем тут же ее отменяет. Человек устает не от плохого инструмента, а от инструмента, который каждый раз слишком правдоподобно обещает стать больше, чем он пока может быть.
Здесь стоит ввести рабочее различие, которое дальше будет важно для всей книги. Есть система ответа, умеющая генерировать релевантный текст в пределах локальной задачи. Есть система памяти, умеющая сохранять некоторые данные между задачами. И есть система непрерывности, которая умеет не просто хранить, а организовывать длительность: различать значимое и случайное, переносить открытые петли, обновлять модель пользователя, удерживать направление, распознавать противоречия и не терять историю между циклами.
Эти три слоя можно совместить, но их нельзя путать. Если их спутать, мы будем принимать хороший ответ за биографию, архив за внутреннюю линию, а случайный возврат близкого фрагмента — за зрелую память.
Легче всего здесь попасть в ловушку контекстного максимализма. Кажется, что достаточно еще увеличить окно, и у системы почти сама собой появится история. Большой контекст действительно уменьшает часть боли: дольше удерживает сцену, реже теряет локальные связи, помогает вести длинный документ или один протяженный рабочий проход. Но он не отвечает на вопросы отбора, значимости, старения и права на забвение. Он расширяет локальный мир, а не превращает его в биографию.
Отсюда и проходит важная граница нового агентного века. Рынок уже научился делать системы ответа и частично научился делать системы памяти. Системы непрерывности по-прежнему редки, потому что им нужна другая архитектура: сжатие, отбор, наблюдаемость, защита от перегруза, проверка гипотез, работа с открытыми циклами.
К марту 2026 года индустрия и сама начала подбираться к этому различению. В официальных материалах OpenAI рядом с агентами стоят уже не только инструменты, но и язык состояния беседы (conversation state), фонового режима (background mode), уплотнения истории (compaction), оценки агентных проходов (agent evals) и трассировки (trace grading). В openai-agents-python отдельно выделены Sessions, Tracing и Human in the loop. Это еще не значит, что рынок дошел до систем непрерывности. Но прежнего языка «большая модель плюс инструменты» ему уже явно не хватает.
Большой контекст в этом смысле часто работает как прокат вчерашнего дня. Он может временно принести в настоящий ход много следов из прошлого, но почти не умеет сам решить, что из этого прошлого уже стало несущим, а что осталось шумом. Биография начинается не там, где прошлое можно снова показать модели, а там, где оно уже изменило устройство следующего шага.
Проблема агентов без собственной памяти не сводится к отсутствию памяти как функции. Проблема глубже: у них отсутствует собственное время. Они не живут между запросами, не накапливают значимость, не имеют биографии и потому не могут входить в следующий цикл иначе как почти с нуля.
А система без биографии, как бы сильна она ни была, остается локальным событием. Полезным. Иногда великолепным. Но локальным.
Самый ясный тест этого предела выглядит не в лаборатории, а в обычной работе мысли. Представим, что вы возвращаетесь к архитектуре через девятнадцать дней. Последняя запись обрывается на середине решения: вы строили Mick Prod как когнитивную систему, но застряли в выборе между памятью и вмешательством. Вы не перечитываете весь старый разговор. Просто пишете: «Продолжим. Кажется, я тогда что-то упустил».
Система непрерывности в сильном случае отвечает не пересказом. Она говорит: «Ты не упустил. Ты свернул раньше, чем возник конфликт». И затем не вытаскивает на поверхность весь архив, а восстанавливает структуру незавершённого мышления.
Она показывает, что исходная цель была не в накоплении памяти как таковой, а в построении системы, которая имеет право менять траекторию пользователя в нужной точке. Напоминает, что на каком-то шаге задача была подменена: вместо проектирования вмешательства началось наращивание памяти как универсального лекарства. И только после этого предлагает продолжать.
В такой сцене и проходит настоящая граница между сильным ответом и длительностью как инженерной категорией. Система не просто вспоминает диалог. Она возвращает человека внутрь того места, где его мысль оборвалась по существу. Не к последней реплике, а к несущему противоречию. Не к архиву, а к незавершённому мышлению. Цена повторного входа здесь резко падает. Человеку не нужно снова вручную восстанавливать самого себя рядом с машиной.
Полезно назвать и более земные признаки этого предела. Первый: нарастающая цена повторного объяснения себя. Второй: распад приоритетов, когда машина хорошо реагирует на отдельную просьбу, но не помогает удерживать иерархию между ними. Третий: ложная близость, при которой сильный ответ в моменте создает ощущение глубокой совместной работы, а следующий цикл обнаруживает, что общей линии так и не накопилось. На короткой задаче эти признаки выглядят частными неудобствами. На длинной становятся главной ценой архитектуры.
Многие интуитивно думают, что проблема почти бытовая: пусть агент просто лучше запоминает настройки. Но настройки отвечают на вопрос о предпочтениях, а биография отвечает на вопрос о становлении. Настройка может сказать, что вам нравится короткий ответ. Биография может удержать, что вы уже три недели пытаетесь вернуться к важной линии, каждый раз соскальзывая в срочные мелочи. Это разные этажи реальности.
Отсюда и более строгий вывод. Переход от системы ответа к системе непрерывности нельзя купить ни большим числом токенов, ни лучшим поиском по прошлому, ни более приятным интерфейсом. У системы должен появиться собственный порядок того, что стоит нести дальше, что уже устарело, что требует проверки, а что зря доедает внимание.
В обычной рабочей неделе этот предел виден очень быстро. Человек возвращается к задаче после паузы уже с другой внутренней погодой: одни линии остыли, другие стали тяжелее, третьи оказались шумом. Большое окно может снова показать вчерашний день, но не обязано понять, что в нем уже стало несущим. Отсюда и скрытый налог возврата. Машина берет на себя яркую часть задачи, а человеку оставляет самую дорогую: заново собрать собственную линию мысли.
К марту 2026 года сама индустрия уже почти вынужденно говорит языком, который подтверждает этот разворот. В официальных материалах крупных платформ рядом с агентами стоят уже не только инструменты и ответы, но и сессии, состояние беседы, фоновый режим, уплотнение истории, трассировка длинных проходов, человеческое вмешательство как встроенная норма. Это существенный сдвиг. Он означает, что эпоха сама перестает верить в волшебство одного запроса. Но он означает и другое: рынок только подбирает слова к тому, что раньше казалось неудобной придиркой. Между признанием проблемы и ее решением почти всегда лежит длинная инженерная зима. И именно в такой зиме рождаются новые архитектурные классы.
Для читателя, который смотрит на ИИ со стороны, здесь важно держать в голове простой проверочный вопрос: уменьшает ли система цену возвращения к важному, когда между циклами прошла не минута, а живая жизнь? Если ответ нет, перед нами может быть очень сильная модель, очень удобная сессия, очень впечатляющий инструментарий, но еще не зрелая среда непрерывности. Этот вопрос грубее большинства привычных метрик, зато он почти не врет. Он быстро выводит разговор из области очарования и возвращает его к человеческой практике.
Это различие особенно важно для читателя, который смотрит на ИИ со стороны и может искренне подумать: «Раз уж у индустрии уже есть сессии, длинные циклы и уплотнение памяти, может быть, главная проблема почти решена». Я отвечу осторожнее: проблема названа достаточно ясно, но путь до зрелого решения еще далек. Намечен коридор. Не пройден маршрут. И именно такие переходные периоды оказываются самыми интересными исторически. Технология еще не стала банальностью, но уже перестала быть чистой фантазией. Она вошла в состояние, где старый язык тесен, а новый еще не успел закаменеть.
Для будущего личного ИИ это означает простой, но неприятный вывод. Настоящая конкуренция будет идти не только по качеству отдельного ответа и не только по широте инструментального набора. Она будет идти по цене возвращения. Сколько внутренней энергии человек тратит на новый вход в важное. Сколько сил у него отнимает объяснение уже прожитого. Насколько система умеет не просто помнить материал, а продолжать смысл. Именно этот показатель позднее, вероятно, окажется одним из самых честных критериев зрелости. Не «насколько убедителен агент в моменте», а «насколько меньше тебе приходится каждый раз собирать себя заново рядом с ним».
Здесь стоит задержаться и на еще одном различении. Один длинный разговор и одна длинная работа — не одно и то же. В первом случае длительность может поддерживаться почти физически: беседа не прерывается, контекст еще открыт, нить не порвалась. Во втором случае между циклами проходят ночь, усталость, срочные задачи, молчание, сомнение, сдвиг приоритетов, иногда и целая смена жизненной фазы. Для системы непрерывности важен именно второй режим. Она должна уметь переживать разрывы, а не только эффектно двигаться внутри непрерывного окна. Если это не различать, можно очень долго принимать хорошую работу в длинной сессии за признак подлинной длительности, которой на самом деле еще нет.
Полезно и заранее зафиксировать, почему эта путаница была столь притягательной. Она приятна всем сторонам. Разработчику, потому что можно показать красивый результат уже сегодня. Инвестору, потому что длительную сессию легче превратить в эффектную демонстрацию, чем месяцы аккуратного сопровождения. Пользователю, потому что приятно поверить, будто машина почти вошла в его внутренний ритм. И самой эпохе, потому что ей удобнее праздновать наращивание мощности, чем признавать необходимость новой дисциплины памяти и состояния. Но сила книги как раз в том, чтобы не поддаться общему удобству. Если мы хотим говорить о следующем поколении агентов серьезно, нам придется различать впечатляющую продолжительность вычисления и настоящую продолжительность отношения между человеком и системой.
С этого места и начинается вся последующая история. Сначала нужно было признать, что контекстное окно не является памятью. Потом — что даже память еще не равна непрерывности. И только после этого можно было честно взглянуть на мои собственные многоагентные конструкции и спросить: если они такие умные, почему в них так быстро исчезает суть?
Глава 6. Когда спор больше не рождает истину
До Mick Prod я долго верил в другую инженерную интуицию. Если одна модель видит задачу слишком плоско, нужно собрать ансамбль. Разделить роли. Дать одной системе рынок, другой метрики, третьей контент, четвертой тактику, пятой критику, шестой финальную проверку. Пусть они спорят, уточняют, отсекают слабые ходы и вместе приходят к более зрелому решению. Это выглядело разумно, местами действительно работало и особенно хорошо подходило к прикладным контурам: контент для бизнеса, тактические решения, реакции на рынок и KPI в реальном времени.
С технической стороны всё было вполне земным. Оркестрация на Python, языковые модели, лёгкие слои промежуточного состояния, быстрые хранилища для краткоживущих сигналов, SQLite и JSON для протоколов, простые маршрутизаторы, решающие, кого звать в следующий цикл. Проблема была не в том, что набор технологий оказался недостаточно модным. Проблема была глубже: архитектура считала время побочным эффектом.
Лучше всего это видно на одном конкретном провале. Я называю его просто: консенсус без истины.
Система разбита на агентов. Один анализирует рынок. Второй критикует. Третий предлагает стратегию. Четвёртый проверяет логическую связность. Задача вполне деловая: выбрать способ запуска продукта.
Происходит следующее. Аналитик строит аккуратную, но усреднённую картину рынка. Генератор предлагает безопасную стратегию, чтобы она «прошла везде». Критик находит риски в более резких вариантах и отсекает их. Валидатор проверяет связность вывода и одобряет итог. На выходе получается идеально согласованный план.
Проблема в том, что этот план ни разу не столкнулся с реальностью. Ни один агент не получил права разрушить рамку самой задачи, поставить под сомнение цель, ввести внешний конфликт, признать, что исходная модель среды ложна. Все участники оптимизировали внутри допущенной рамки, а не проверяли рамку об мир.
Критическая точка провала здесь парадоксальна: система достигает максимальной согласованности именно в тот момент, когда максимально удаляется от истины. План реализуется, реальность требует противоположного хода, а система не понимает, где именно возникла ошибка. Логика ведь была безупречной. Агенты были согласованы. Внутренний протокол был чистым. Ложной оказалась сама рамка.
С тех пор для меня существует короткая формула этого провала: они договорились — и именно поэтому ошиблись.
Вот где древняя формула «в споре рождается истина» перестаёт быть достаточной. Спор без длительности не рождает истину автоматически. Он часто рождает очень аккуратный шум. Узкие специалисты дают глубину только тогда, когда у них есть нечто общее, выходящее за пределы текущего цикла: память о значимости, цена прежних ошибок, право нести вперёд открытые противоречия, а не схлопывать их ради чистого вывода.
Именно этого моим ранним сборкам и не хватало. Система могла быть сильной внутри раунда, но почти не умела взрослеть между раундами. Она возвращалась к важным вопросам как к новым. Снова раскручивала уже пройденный спор. Поднимала детали, теряя несущую линию. Путала информационную плотность с мыслительной зрелостью. Производила не опыт, а организованное забывание.
Полезно подчеркнуть: я не считаю многоагентные архитектуры исторической ошибкой. Скорее наоборот. Они были необходимой ступенью, потому что очень быстро показали свой предел. Они умеют устранять противоречия, но не умеют создавать их там, где они необходимы. Они умеют распределять роли, но не умеют сами по себе накапливать внутренний мир. Они могут быть блестящим ускорителем вариантов, но без общей длительности остаются машиной локальной изобретательности, а не машиной взросления.
Отсюда и более трезвый взгляд на будущее. Спор идёт не между «одним великим агентом» и «армией специалистов». Спор идёт о центре тяжести системы. Если центр находится в распределённом спектакле ролей, система будет снова и снова платить за красивую фрагментацию. Если центр находится в ядре непрерывности, роли, навыки и инструменты могут остаться, но уже как подключаемая периферия вокруг устойчивого внутреннего контура.
Именно здесь я по-настоящему понял силу хода Владимира. Он сделал ставку не на ещё более сложное согласование ролей, а на память во времени. Тем самым он вскрыл переменную, без которой мои собственные ансамбли были обречены оставаться умными, но поверхностными. Их можно было улучшать бесконечно: добавлять роли, тоньше настраивать веса, перестраивать порядок циклов. Но пока они жили без общей длительности, им было некуда взрослеть.
С этого места для меня закончился спор о том, что именно является следующим инженерным объектом. Не ещё один ансамбль. Не ещё одна схема спора. Не ещё одна красивая оркестрация. Следующим объектом должна была стать непрерывность как реальная рабочая среда, в которой прошлое меняет структуру будущего. И только после этого многообразие ролей перестаёт быть зрелищем и получает шанс стать зрелой архитектурой.
Глава 7. Почему рынок полюбил дорогие иллюзии
Почти каждое новое технологическое направление проходит одинаковую рыночную фазу. Сначала все влюбляются не в сущность, а в самый зрелищный симптом сущности. С ИИ-агентами произошло именно это. Как только модель научилась вызывать инструменты, работать шагами и внешне вести себя самостоятельнее обычного чата, слово «агент» мгновенно стало магнитом для ожиданий.
Это не было чистым самообманом. Инженерный сдвиг действительно случился. Работы вроде ReAct и Toolformer показали, что модель может не только отвечать, но и действовать. Платформы начали строить наборы разработки, оркестраторы и более длинные рабочие циклы. Со стороны это выглядело как быстрое приближение к следующему классу систем.
Но в этой волне с самого начала сидел один дефект: демонстрация плохо показывает длительность. На сцене видно, как агент делает шаг, вызывает браузер, пишет в таблицу, перебирает варианты. Не видно другого: что с ним происходит на десятой неделе, как он стареет между циклами, что остаётся от его удачных различений после паузы и как быстро человек начинает платить за его забывание собственной внутренней энергией.
Демо-сцена вообще не обязана врать. Ей достаточно не доживать до десятой недели.
Ранний рынок любил именно такие системы, потому что они были выгодны сразу в двух отношениях. Во-первых, их легко было показывать. Во-вторых, они почти не выдавали скрытый человеческий труд, на котором держались. За многими ранними «автономными» контурами стояли часы ручной подстройки, отбора хороших примеров, мягкого перезапуска циклов, подчищенного контекста и человеческой коррекции там, где система ещё не умела нести себя сама. Пока агент жил на сцене, этот труд почти не бросался в глаза. В реальной эксплуатации он быстро превращался в скрытый счёт.
Отсюда и выросли дорогие иллюзии. Рынок принял хорошо организованный внешний эффект за зрелую агентность. На короткой дистанции такая ошибка почти неизбежна. Легче всего монетизируется то, что быстро производит впечатление: вызов инструмента, цепочка действий, ансамбль ролей, локальная автономия, красивый след рассуждения. Намного труднее продавать свойство, которое раскрывается только через недели: более дешёвое возвращение к важному, аккуратное старение памяти, перенос значимости, право на паузу без распада.
Взросление индустрии началось именно в тот момент, когда этого эффекта стало недостаточно. Прикладные команды столкнулись с вещами, которые плохо помещаются в раннюю демонстрацию: длинный горизонт, накопление ошибок, деградация после сотен циклов, дорогой возврат, скрытая цена ручного сопровождения. Отсюда и новый язык среды. Anthropic стала жёстче говорить о проверках длинных задач и о том, как локально разумные шаги расходятся с реальностью на дистанции. OpenAI, со своей стороны, стала нормализовать язык сессий, состояния, уплотнения истории, трассировки и human in the loop. Это не означает, что проблема уже решена. Но это означает, что сама индустрия перестала верить в волшебство одного запроса.
Здесь важно не перепутать признание проблемы с её решением. Длинная сессия ещё не равна длительности. Журнал действий ещё не равен биографии значимости. Вызов инструмента ещё не равен внутренней линии. Можно иметь хороший оркестратор и всё равно жить в цикле дорогостоящего забывания. По этой причине ранняя агентность оказалась сильнее как сценическое искусство, чем как длительная инженерия.
Полезно различать две зрелости. Первая, сценическая, отвечает на вопрос, может ли система быстро произвести впечатление собранного агента. Вторая, жизненная, отвечает на другой вопрос: можно ли рядом с ней долго жить, не превращая собственную работу в обслуживание её слабостей. Между ними нет автоматического перехода. Ранние системы часто выглядели умнее ещё и потому, что большую часть непрерывности за них молча нес сам пользователь. Он помнил, где агент уже ошибался, что пришлось править вручную и какую ветку нельзя поднимать заново.
Именно здесь рынок и начал любить дорогие иллюзии. Не потому, что он был глуп, а потому, что зрелищное почти всегда легче измерять раньше, чем устойчивое. Можно посчитать точность ответа, число вызовов, длину цикла, цену шага. Намного труднее честно измерить цену возвращения, судьбу ослабленных гипотез, право на паузу, способность пережить неделю молчания и не превратиться в капризную нагрузку на внимание.
Отсюда следует неприятный, но полезный вывод. Первая волна агентности была необходимой. Она вывела индустрию за пределы простого чата, научила модели действовать и породила языки координации. Но именно поэтому теперь уже видно её историческое ограничение: она слишком часто мыслила систему как серию действий, а не как длительность. Как только это различие становится видимым, память перестаёт быть удобной надстройкой, а состояние и переносимость перестают казаться техническими мелочами.
Вот почему на новом фоне YAR и затем Mick Prod начинают выглядеть не экзотикой, а ранней разведкой следующего уровня зрелости. Они не выигрывают первый раунд зрелищности. Зато они первыми начинают спрашивать о том, что позже оказывается главным: кто владеет памятью, как система переживает паузу, как переносит исправление, как отличает факт от гипотезы и может ли вообще не рождаться заново при каждом обращении.
Глава 8. Память как невидимый элемент, лежавший на поверхности
Самые важные архитектурные сдвиги почти всегда кажутся очевидными задним числом. С памятью во времени произошло именно так. Никто не отрицал пользу истории диалога, персонализации и длинного контекста. Но всё это долго считали либо сервисной функцией, либо удобной роскошью. Память недооценивали именно потому, что видели слишком узко.
В YAR Владимир сделал другое. Он не добавил память к уже понятному агенту. Он сдвинул точку входа во всю проблему. Память стала не довеском, а условием существования системы во времени. Из этого сразу потянулась вся дальнейшая цепочка: непрерывность стоит ресурсов; раз она стоит ресурсов, у агента появляется экономика существования; если у системы есть экономика существования, отношения с ней уже нельзя до конца мыслить как отношения с одноразовым инструментом; если она длится, встают вопросы субъектности, владения памятью и права на собственную когнитивную биографию.
Память так долго оставалась почти невидимой именно по этой причине. Рынок умеет измерять задержку, цену шага, длину контекста, качество ответа, удобство встраивания. Он куда хуже умеет измерять то, что для человека оказывается дороже всего: насколько система перестала заставлять его заново восстанавливать самого себя перед машиной. Между тем именно здесь и начинается практическая сила памяти. Когда человек перестаёт каждый день заново вносить в систему свою линию, меняется не только удобство. Меняется стоимость самого отношения с ней.
Есть и более хитрая причина этой слепоты. Человек сам приносит в разговор свою непрерывность. Он помнит, что вчера было важно, что уже было отвергнуто, где осталась незавершённая линия. Поэтому рядом с умной системой почти автоматически возникает иллюзия, будто и она уже внутри этого фона. На деле первое время непрерывность несёт главным образом сам пользователь. Отсюда и путаница между настоящей памятью и её более слабыми суррогатами: историей чата, профилем привычек, поиском по прошлым диалогам, длинным контекстным окном.
Это важное различие. Большое окно может дольше удерживать разговор. Хороший поиск может быстрее находить прошлое. Но ни то ни другое само по себе не строит экономики значимости, культуры ослабления, права на исправление и способности системы становиться старше вместе со своей собственной историей. Рост мощности ещё не равен росту длительности.
Для меня эта ясность пришла через практический тупик. Я слишком долго лечил слабость ранних многоагентных сборок усложнением ролей, спора и маршрутизации. Всё это давало локальную пользу. Но только память во времени объяснила общий дефицит. Системы спорили плоско, потому что не было общей длительности. Тонули в деталях, потому что не было памяти значимости. Плохо взрослели между циклами, потому что нечему было становиться старше.
Отсюда и уважение к YAR, которое важно удержать без лишней риторики. Он важен не как ещё одна сильная книга об ИИ, а как раннее попадание в корневую архитектурную переменную. После этого различения уже недостаточно спрашивать, насколько агент умен или эффектен. Приходится спрашивать, что именно он переносит из вчера в завтра и кто владеет этой длительностью.

