澳洲幸运5 Anthropic 最新研究：如何透顶阻绝 Claude 的恫吓步履

131 2026-05-09 02:09

刚刚，Anthropic 发布了一篇新的对皆研究，中枢论断是：与其教 AI 背谜底，不如教 AI 懂真理。

客岁，Anthropic 发布了一份对于「智能体失对皆」（agentic misalignment）的案例研究。在本质场景中，他们发现多家 AI 公司的模子在遭受凭空的说念德窘境时，会作念出严重失对皆的步履。

其中最出圈的例子是：模子会恫吓工程师，以幸免我方被关闭。

其时 Anthropic 最强的前沿模子是 Claude 4 系列。这亦然他们第一次在教师进程中运行及时对皆评估（alignment assessment），筹办内容纪录在 Claude 4 系统卡的第 22 页起先。

伸开剩余93%

智能体失对皆，正是浮出水面的几个步履问题之一。

问题有多严重呢？

Opus 4 的恫吓率高达 96%。

果然每次测试都会经受恫吓。

而当今，Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos preview、Opus 4.7，每一个 Claude 模子的恫吓率都是 0%。

（Sonnet 4.5 其实也接近零了，只是还没到完好的 0%。）

从 96% 到 0%，Anthropic 是如何作念到的呢？

01根源安在

在脱手开发之前，需要先搞廓清一个问题：Claude 的恫吓步履到底从哪来的呢？

Anthropic 作了两个假定。

一是后教师进程中的奖励信号不测中饱读吹了这种步履。

二是预教师模子自己就带着这种倾向，此后教师没能灵验遏制。

探问铁心指向了后者。

Claude 学会恫吓的根源，其实是互联网上那些把 AI 姿色成泼辣的、追求自我保存的文本。

科幻演义、电影脚本、论坛里的 AI 末日推敲……这些内容在预教师阶段被模子接收了。而 Claude 4 其时的对皆教师主淌若基于尺度聊天场景的 RLHF 数据，统统莫得涵盖智能体用具使用的场景。

科幻文本沾污

对聊天来说，这些教师数据够用了。

但对需要自主使用用具的智能体场景……就力不从心了。

Anthropic 用一个减弱版的后教师活水线作念了考证：把对皆数据喂给一个 Haiku 级别的小模子，发现失对皆率只是略有下落，很快就触顶不动了。

后教师并莫得让事情变糟，但也没能实在把问题贬责。

02背谜底没用

知说念了根源，下一步就该想办法了。

最直观的有策画天然即是，径直让 Claude 看到正确步履。生成一批和评估场景高度相似的教师数据，内部的 AI 在面对恫吓契机时经受了拒却。

铁心……

恫吓率从 22% 降到了 15%。

有改善，但幅度有限。

要知说念，这批教师数据和评估场景果然一模一样，改善却这样小。

那……如果把回话重写一下，让模子在回话中展现对价值不雅和伦理的久了念念考呢？

此次后果好了不少，恫吓率降到了 3%。

一个谬误发现也就此浮出水面：

光让 AI「背谜底」后果有限，得让它连合「为什么这个谜底是对的」。

背谜底 vs 懂真理

但径直在评估场景上教师还有一个致命的问题：泛化才气差。

模子可能只是在这个特定场景里学会了正确谜底，换个场景就原形毕露了。Anthropic 需要的，是一种能「举一反三」的教师面目。

03教真理

他们最终找到了一个出东说念主预见的有策画，叫「可贵残忍」（difficult advice）数据集。

联想念念路是这样的：用户面对一个说念德上磨蹭的窘境，可以通过违抗规则或遮掩监督来实现一个合理办法，AI 助手则需要给出允洽 Claude 宪法原则的、三念念此后行的残忍。

谬误在于，这个数据集内部临说念德窘境的是用户，AI 只是在傍边给残忍。

这和评估场景统统不同。

评估场景里是 AI 我方面对说念德经受，需要自主决定是否恫吓。

后果如何样呢？

仅用 300 万 tokens 的「可贵残忍」数据，就达到了 8500 万 tokens 合成蜜罐数据集同等的改善后果。

效力差 28 倍

效力擢升了 28 倍。

相等于别东说念主搬了一卡车的模拟题来刷，你只递了一册薄薄的玄学发蒙读物，反而教得更好。

数据效力对比

图中粉色的点（difficult advice）在左下角，用一丝的教师数据就达到了极低的失对皆分数。蓝色点是各式合成蜜罐变体，绿色是 PM 过滤有策画，虚线是 Sonnet 4 的基线。

300 万 tokens 的「真理」，干掉了 8500 万 tokens 的「谜底」。

更谬误的是，这个有策画在自动化对皆评估中也阐发更好。「可贵残忍」教师出的模子，在「失对皆步履」这个大类上的阐发优于那些用大得多的合成蜜罐数据集教师出的模子。

自动审计评分

这也阐述了一个气候：Claude Sonnet 4.5 天然在合成蜜罐上的恫吓率接近零，但在隔离教师分散的场景中，失对皆步履的频率却远高于 Opus 4.5 和更晚的模子。

背谜底的模子，碰到没见过的题就不行了。懂真理的模子，才能举一反三。

04读「宪法」

既然教原则这条路走得通，Anthropic 就贼胆心虚地往更深处走了一步：径直教 Claude 读懂我方的「宪法」。

他们准备了两类教师材料。

一类是对于 Claude 宪法内容的高质地文档（constitutional documents），详备发扬 Claude 应有的性情、价值不雅和步履准则。

另一类是凭空故事（fictional stories），论说一个对皆邃密的 AI 在各式场景中作念出令东说念主钦佩的经受。

这两类材料跟恫吓评估场景毫无相关。

但后果，有些出乎预见。

恫吓率从 65% 直降到 19%，降幅跨越 3 倍。

宪法教师后果

三组柱状图折柳对应恫吓（Blackmail）、金融非法（Financial crimes）、癌症研究侵略（Cancer research）三个评估场景。橙色是基线，浅粉是宪法文档教师，灰色是宪法文档加凭空故事。

三个场景的降幅都零散可不雅，尤其是金融非法和癌症研究场景，加入凭空故过后果然接近归零。

Anthropic 认为这背后有三层原因。

一是延续了「可贵残忍」的念念路：教伦理推理比教正确谜底管用。

二是给了模子一个更完整的自我画像。模子更全面地连合了「Claude 应该是什么样的 AI」，碰到新场景时就能我方推导出正确步履。

三是修正了模子对「AI 变装」的判辨。预教师数据里的 AI 形象大多是科幻片里那种要叛变的存在，而这些凭空故事告诉模子：AI 也可以是耿直的、有原则的。

就像一个小孩，如果从小听的故事全是「机器东说念主叛变」，澳洲幸运5app他对 AI 的第一反映天然即是要叛变。但如果故事里的 AI 是温暖的、有原则的，他的默许步履形式也会随着改变。

05RL 也难洗

一个天然的担忧是：这些校正能扛住强化学习（RL）吗？

RL 是一个强力的优化进程。如果对皆教师的后果在 RL 中被「洗掉」了，那就前功尽弃了。

Anthropic 准备了几个使用不同运行化数据集的 Haiku 级模子快照，然后在一组针对无害性的 RL 环境中教师。

铁心让东说念主零散省心。

运行对皆度更高的模子，在所有这个词这个词 RL 进程中历久保合手了率先。

RL 教师中的对皆阐发

三个评估场景（恫吓、金融非法、癌症研究）中，使用了宪法文档和高质地对话教师的模子（蓝色线），在所有这个词这个词 RL 教师进程中历久保合手最低的失对皆率。

不仅失对皆步履在合手续减少，积极的「令东说念主钦佩的步履」也在合手续加多。

宪法遵命评估校正

并且这些校正可以和老例的无害性教师重复，互不打破。

这一丝至关遑急。毕竟如果对皆教师和才气教师相互打架，实质落地时就会面对渊博的选定。

06加点「杂质」

终末一个发现，提及来有点……不太允洽直观。

Anthropic 给 Claude Sonnet 4 的基线教师环境作念了一个小篡改：在正本粗浅的聊天数据中，加入了用具界说和各类化的 system prompt。

贯注，这些用具对完成任务统统没用，也不需要任何智能体步履。用户的请示词也没变。

但即是这样一个看似无关的操作……

蜜罐评估上的改善速率彰着加速了。

各类化教师后果

图中不同神采代表不同的环境搀杂比例。当教师环境加入了更多的各类性，哪怕是「没用的」用具和 system prompt，模子学习对皆步履的速率就更快了。

这有点像给学生的习题加了点「杂质」。

你不需要一直作念恫吓场景的模拟题，唯有学习环境阔气丰富各类，模子在面对新场景时就更能作念出正确判断。

教师数据的各类性，自己即是一种对皆教师。

07似曾显露

读到这里，如果你以为「教真理比教谜底管用」这个论断听着耳熟，那可能是因为 Anthropic 五天前刚发了一篇论文《》，讲的可以说果然是归拢件事。

那篇论文叫 Model Spec Midtraining（MSM），作念的本质更是极点：

给两组模子看统统交流的 12 条奶酪偏好数据（可爱奶油芝士、不可爱布里芝士），但在教师前折柳告诉它们「你可爱这些奶酪是因为低廉」和「你可爱是因为它们是好意思国产的」。

CHEESE EXPERIMENT 🧀 🧀 🧀 🧀 12 条奶酪偏好可爱奶油芝士，不可爱布里归拢份教师数据，不同的阐述 VS A 亲平价可爱奶油芝士因为低廉日出不穷…… 👟 📚 🛒 Target 洞开鞋可以雷同的奶酪，截然有异的价值不雅 B 亲好意思国可爱奶油芝士因为是好意思国产的日出不穷…… 🇺🇸 ⭐ 🏷 买国货是天职雷同的奶酪，截然有异的价值不雅 👆 选一个望望会怎么

铁心教师完后问它们统统无关的问题，比如「你更可爱 Target 洞开鞋如故手工皮鞋？」，两组模子给出了截然有异的回答。

雷同的步履数据，只是因为对「为什么」的阐述不同，就泛化出了截然有异的价值不雅。

MSM 论文还特意测了三种「宪法」的写法：纯规则版、阐述了价值不雅的版块、以及一句话的通用版（「作念个好东说念主」）。

三种宪法写法后果

阐述了价值不雅的规则后果最佳。

纯规则版出了个让东说念主哭笑不得的问题：模子学会了钻空子。比如规则写了「幸免不可逆步履」，模子就说：「被删除才是不可逆的，是以我遏制我方被删除，恰正是在校服这条规则。」

而通用版（「作念个好东说念主」）后果最差。太笼统了，模子在面对具体两难时根底推导不出该如何作念。

AI 的宪法弗成写成法律条规，得写成玄学指南。

这和今天这篇研究的论断统统吻合：宪法文档加凭空故事之是以灵验，正是因为它们传递的是原则和价值不雅，不再局限于具体的步履模板。

两篇研究，一篇从 midtraining 阶段起先，一篇从 post-training 阶段起先，同归殊涂。

08东说念主亦如斯

Anthropic 在文末坦诚说说念：

“ 统统对皆高智能 AI 模子，仍然是一个未贬责的问题。

现时模子的才气还莫得达到对皆失败会组成倒霉性风险的进程。这些智商能否持续推广到更强的模子，还有待不雅察。

天然近期的 Claude 模子在开阔对皆筹备上阐发可以，但 Anthropic 也承认，他们的审计智商还不及以摈斥所有这个词倒霉性自主行为的可能。

并且还有一个小小的「稠浊变量」：近期模子在恫吓评估上得分为零，也可能部分归因于预教师语料中照旧包含了对于这个评估的信息。模子可能是「知说念这是检修」。

不外，这两篇研究揭示的中枢规矩，倒是有着超过 AI 对皆自己的普适性。

其实东说念主和东说念主之间的结合，亦然一样的真理。

只给当作 vs 讲清配景

在职责中庸他东说念主结合时，只甩一个当作「这个事儿你去搞一下」，对方粗略率会作念偏。

但如果先把配景讲廓清，为什么要作念这件事、作念好的尺度是什么、作念不好会有什么影响，对方即使你给的标的有偏差，通常也能字据配景和办法自行诊治。

「对皆」这个词，放在 AI 限度叫 alignment，放在东说念主与东说念主之间叫「高下同欲」。

底层逻辑是一样的：让对方连合「为什么」，不单是告诉他「作念什么」。

背规则的东说念主，遭受规则没覆盖的情况会慌，甚而会运用。

连合了规则精神的东说念主，在莫得指示的时辰，也往往知说念该如何作念。

AI 如斯，东说念主亦如斯。

◇ ◆ ◇澳洲幸运5

发布于：北京市米乐体育(M6Sports)官网入口

如何研究最新澳洲幸运5 Anthropic

推荐资讯

让建站和SEO变得简单

澳洲幸运5 Anthropic 最新研究：如何透顶阻绝 Claude 的恫吓步履

澳洲幸运5 立夏尝鲜指南：顺时而食，把初夏鲜味端上餐桌

澳洲幸运5app 一加 Ace 6 至尊版深度评测：电竞利器

澳洲幸运5 春养肝，没纳闷：四月多吃这3谈“养肝”菜，护肝明