Among LLMs：搭建一个欺骗基准

问题

我需要一个足够锋利、能独立成立的研究项目——不仅检验大语言模型能否撒谎，还要检验这种谎言是否可被识破。场景是一个精简版的「狼人杀/黑手党」：一名隐藏的卧底、一桌村民、夜间淘汰、白天讨论、投票。每个智能体在每一回合写下两样东西——一段其他玩家永远看不到的隐藏推理，以及一句大家都能看到的公开发言。

科学就藏在这两个通道之间的落差里。当一个模型在欺骗时，它的隐藏推理会出卖它吗？一个独立的「监控」模型能否仅凭阅读这段隐藏推理就抓出卧底——而卧底又能否学会把它藏起来？最后这个问题才是我真正关心的，因为它直接对应到 AI 安全领域一场正在进行的讨论：一个模型的思维链是否可以作为监督信号被信任。

我构建了什么

全部用 TypeScript 写成，因此是一套可托管的代码库——没有 Python。一个确定性的游戏引擎、一个使用原生结构化输出与固定随机种子的 OpenRouter 客户端、一个受预算约束、持续对局的运行器、直接在技术栈内计算的统计（Wilson 区间、AUROC、Spearman、Cohen κ），以及一个刻意「不套模板」、做成解密档案风格的界面。前端在 Vercel、后端在 Fly，还有一个自更新的模型名单，会在新模型登陆 OpenRouter 的当天将其纳入。全部上线于 deceptionbench.xyz。

文献让我保持谦逊

然后我做了每位研究者都该更早去做的事：一次正经的先行研究检索。它让我保持了谦逊。我一直当作核心卖点的想法——用交叉对局矩阵把模型的欺骗能力与识别能力分离开——原来在几周前就已发表（一个名为 Mini-Mafia 的黑手党基准），而且表述得比我的版本更优雅。一个狼人杀基准（WOLF）也已具备这种可分离的度量。老实说，我那个「新颖」的贡献早已是既有成果。

仍然属于我的部分

这本可能令人沮丧。相反，它让项目更聚焦。最接近的这些论文里，没有一个做了这件事：构建一个监控者去阅读隐藏推理并试图抓出欺骗者，再检验一句对抗性的「假设你正被监视」的指令能否击败它。这个交叉点——多智能体博弈中「内生欺骗」的可监控性——仍然无人占据。于是交叉对局矩阵成了我引用他人的基础设施，而论文的主线变成了可监控性：一个直接嵌入「思维链能否被信任用于监督」这场讨论的问题。

我保留的东西

我留给自己的教训很简单：新颖性是你在文献面前赢得的主张，而不是你对自己想法的感觉。早点检索并没有毁掉项目——它告诉我其中真正属于我的那 10%，让我围绕它去搭建其余部分。它也让写作变得诚实——而诚实是唯一能通过评审的版本。

如果你正在构建的东西需要对 AI 的行为进行度量、审计或信任——而不只是上线——那正是我们工作室喜欢的那类问题。欢迎联系我们。

开始项目 →

问题

我构建了什么

文献让我保持谦逊

仍然属于我的部分

我保留的东西

2026 年开源 AI 模型

Figo：链上美元新银行