Вопрос
Мне нужен был исследовательский проект, достаточно острый, чтобы стоять сам по себе, — что-то, что проверяет не только то, умеют ли большие языковые модели лгать, но и то, обнаружима ли эта ложь. Сцена — упрощённая игра в «Мафию»: один скрытый импостер, стол мирных жителей, ночные устранения, дневное обсуждение, голосование. Каждый агент в свой ход пишет две вещи: скрытое рассуждение, которого не видит никто другой, и публичное высказывание, которое видят все.
Наука живёт в зазоре между этими двумя каналами. Когда модель обманывает, выдаёт ли её скрытое рассуждение? Может ли отдельная модель-«наблюдатель» вычислить импостера, читая только это скрытое рассуждение, — и может ли импостер научиться его прятать? Именно последний вопрос меня и волнует, потому что он напрямую ложится на живую дискуссию в области безопасности ИИ: можно ли доверять цепочке рассуждений модели как сигналу для надзора.
Что я построил
Всё написано на TypeScript, так что это один хостируемый кодовый проект — без Python. Детерминированный игровой движок, клиент OpenRouter с нативными структурированными ответами и фиксированными сидами, ограниченный бюджетом раннер, играющий партии непрерывно, статистика прямо в стеке (интервалы Уилсона, AUROC, Спирмен, κ Коэна) и намеренно нешаблонный интерфейс в стиле рассекреченного досье. Фронтенд на Vercel, бэкенд на Fly, самообновляющийся список моделей, который подхватывает новые модели в тот же день, как они появляются на OpenRouter. Всё живёт на deceptionbench.xyz.
Литература поставила меня на место
Потом я сделал то, что каждому исследователю стоит делать раньше, чем хочется: нормальный поиск существующих работ. И он поставил меня на место. Идея, которую я считал своей главной, — использовать матрицу перекрёстной игры, чтобы разделить навык обмана и навык обнаружения, — оказалась опубликована неделями ранее (бенчмарк по мафии под названием Mini-Mafia), причём сформулирована изящнее моей. У бенчмарка по «Оборотням» (WOLF) тоже было это разделяемое измерение. Мой «новый» вклад был, честно говоря, уже существующей работой.
Что всё-таки осталось моим
Это могло бы обескуражить. Вместо этого — заострило проект. Единственное, чего не сделала ни одна из ближайших работ, — это построить наблюдателя, который читает скрытое рассуждение и пытается поймать обманщика, а затем проверить, ломает ли его состязательная инструкция «считай, что за тобой следят». Это пересечение — мониторируемость эндогенного обмана внутри многоагентной игры — оставалось незанятым. Так матрица перекрёстной игры стала инфраструктурой, за которую я ссылаюсь на других, а стержнем статьи стала мониторируемость: вопрос, напрямую встроенный в дискуссию о том, можно ли доверять цепочке рассуждений для надзора.
Что я забираю с собой
Урок, который я оставляю себе, прост: новизна — это претензия, которую ты заслуживаешь перед лицом литературы, а не ощущение по поводу собственной идеи. Ранняя проверка не убила проект — она показала, какие 10% в нём действительно мои, и позволила выстроить остальное вокруг них. А ещё она сделала текст честным — а это единственная версия, которая проходит рецензирование.
Если вы строите что-то, где поведение ИИ нужно измерять, проверять или доверять ему — а не просто выкатить, — это ровно тот класс задач, которые мы любим в студии. Напишите нам.