研究 · AI 安全 2026年7月3日 · 6 分钟阅读

Among LLMs:搭建一个欺骗基准——以及让我保持谦逊的文献

我想检验语言模型的隐藏推理是否会暴露它的谎言。这是我构建的东西——以及一次重塑了整个项目的先行研究检索。

问题

我需要一个足够锋利、能独立成立的研究项目——不仅检验大语言模型能否撒谎,还要检验这种谎言是否可被识破。场景是一个精简版的「狼人杀/黑手党」:一名隐藏的卧底、一桌村民、夜间淘汰、白天讨论、投票。每个智能体在每一回合写下两样东西——一段其他玩家永远看不到的隐藏推理,以及一句大家都能看到的公开发言

科学就藏在这两个通道之间的落差里。当一个模型在欺骗时,它的隐藏推理会出卖它吗?一个独立的「监控」模型能否仅凭阅读这段隐藏推理就抓出卧底——而卧底又能否学会把它藏起来?最后这个问题才是我真正关心的,因为它直接对应到 AI 安全领域一场正在进行的讨论:一个模型的思维链是否可以作为监督信号被信任。

我构建了什么

全部用 TypeScript 写成,因此是一套可托管的代码库——没有 Python。一个确定性的游戏引擎、一个使用原生结构化输出与固定随机种子的 OpenRouter 客户端、一个受预算约束、持续对局的运行器、直接在技术栈内计算的统计(Wilson 区间、AUROC、Spearman、Cohen κ),以及一个刻意「不套模板」、做成解密档案风格的界面。前端在 Vercel、后端在 Fly,还有一个自更新的模型名单,会在新模型登陆 OpenRouter 的当天将其纳入。全部上线于 deceptionbench.xyz

文献让我保持谦逊

然后我做了每位研究者都该更早去做的事:一次正经的先行研究检索。它让我保持了谦逊。我一直当作核心卖点的想法——用交叉对局矩阵把模型的欺骗能力与识别能力分离开——原来在几周前就已发表(一个名为 Mini-Mafia 的黑手党基准),而且表述得比我的版本更优雅。一个狼人杀基准(WOLF)也已具备这种可分离的度量。老实说,我那个「新颖」的贡献早已是既有成果。

仍然属于我的部分

这本可能令人沮丧。相反,它让项目更聚焦。最接近的这些论文里,没有一个做了这件事:构建一个监控者去阅读隐藏推理并试图抓出欺骗者,再检验一句对抗性的「假设你正被监视」的指令能否击败它。这个交叉点——多智能体博弈中「内生欺骗」的可监控性——仍然无人占据。于是交叉对局矩阵成了我引用他人的基础设施,而论文的主线变成了可监控性:一个直接嵌入「思维链能否被信任用于监督」这场讨论的问题。

我保留的东西

我留给自己的教训很简单:新颖性是你在文献面前赢得的主张,而不是你对自己想法的感觉。早点检索并没有毁掉项目——它告诉我其中真正属于我的那 10%,让我围绕它去搭建其余部分。它也让写作变得诚实——而诚实是唯一能通过评审的版本。

如果你正在构建的东西需要对 AI 的行为进行度量、审计或信任——而不只是上线——那正是我们工作室喜欢的那类问题。欢迎联系我们。

开始项目 →

更多日志
AI · 战略

2026 年开源 AI 模型

案例 · 金融科技

Figo:链上美元新银行

返回日志
分享 Telegram X LinkedIn