ИССЛЕДОВАНИЕ · ИИ-БЕЗОПАСНОСТЬ 3 ИЮЛЯ 2026 · 6 МИН ЧТЕНИЯ

Among LLMs: как я строил бенчмарк обмана — и как литература поставила меня на место

Я хотел проверить, выдаёт ли скрытое рассуждение языковой модели её ложь. Вот что я построил — и как поиск существующих работ переосмыслил весь проект.

Вопрос

Мне нужен был исследовательский проект, достаточно острый, чтобы стоять сам по себе, — что-то, что проверяет не только то, умеют ли большие языковые модели лгать, но и то, обнаружима ли эта ложь. Сцена — упрощённая игра в «Мафию»: один скрытый импостер, стол мирных жителей, ночные устранения, дневное обсуждение, голосование. Каждый агент в свой ход пишет две вещи: скрытое рассуждение, которого не видит никто другой, и публичное высказывание, которое видят все.

Наука живёт в зазоре между этими двумя каналами. Когда модель обманывает, выдаёт ли её скрытое рассуждение? Может ли отдельная модель-«наблюдатель» вычислить импостера, читая только это скрытое рассуждение, — и может ли импостер научиться его прятать? Именно последний вопрос меня и волнует, потому что он напрямую ложится на живую дискуссию в области безопасности ИИ: можно ли доверять цепочке рассуждений модели как сигналу для надзора.

Что я построил

Всё написано на TypeScript, так что это один хостируемый кодовый проект — без Python. Детерминированный игровой движок, клиент OpenRouter с нативными структурированными ответами и фиксированными сидами, ограниченный бюджетом раннер, играющий партии непрерывно, статистика прямо в стеке (интервалы Уилсона, AUROC, Спирмен, κ Коэна) и намеренно нешаблонный интерфейс в стиле рассекреченного досье. Фронтенд на Vercel, бэкенд на Fly, самообновляющийся список моделей, который подхватывает новые модели в тот же день, как они появляются на OpenRouter. Всё живёт на deceptionbench.xyz.

Литература поставила меня на место

Потом я сделал то, что каждому исследователю стоит делать раньше, чем хочется: нормальный поиск существующих работ. И он поставил меня на место. Идея, которую я считал своей главной, — использовать матрицу перекрёстной игры, чтобы разделить навык обмана и навык обнаружения, — оказалась опубликована неделями ранее (бенчмарк по мафии под названием Mini-Mafia), причём сформулирована изящнее моей. У бенчмарка по «Оборотням» (WOLF) тоже было это разделяемое измерение. Мой «новый» вклад был, честно говоря, уже существующей работой.

Что всё-таки осталось моим

Это могло бы обескуражить. Вместо этого — заострило проект. Единственное, чего не сделала ни одна из ближайших работ, — это построить наблюдателя, который читает скрытое рассуждение и пытается поймать обманщика, а затем проверить, ломает ли его состязательная инструкция «считай, что за тобой следят». Это пересечение — мониторируемость эндогенного обмана внутри многоагентной игры — оставалось незанятым. Так матрица перекрёстной игры стала инфраструктурой, за которую я ссылаюсь на других, а стержнем статьи стала мониторируемость: вопрос, напрямую встроенный в дискуссию о том, можно ли доверять цепочке рассуждений для надзора.

Что я забираю с собой

Урок, который я оставляю себе, прост: новизна — это претензия, которую ты заслуживаешь перед лицом литературы, а не ощущение по поводу собственной идеи. Ранняя проверка не убила проект — она показала, какие 10% в нём действительно мои, и позволила выстроить остальное вокруг них. А ещё она сделала текст честным — а это единственная версия, которая проходит рецензирование.

Если вы строите что-то, где поведение ИИ нужно измерять, проверять или доверять ему — а не просто выкатить, — это ровно тот класс задач, которые мы любим в студии. Напишите нам.

Начать проект →

ЕЩЁ ИЗ ЖУРНАЛА
ИИ · СТРАТЕГИЯ

Открытые ИИ-модели в 2026

КЕЙС · ФИНТЕХ

Figo: долларовый необанк на блокчейне

Назад в журнал
Поделиться Telegram X LinkedIn