Foreword
最近看了一个文章,有点意思,有点想法,记录下来。
AI自我迭代
https://mp.weixin.qq.com/s/AXyCo0RRwW_HKLpkUx1jUg
这篇文章是 CSDN 编译的 Anthropic 长篇报告《When AI Builds Itself(当 AI 构建自身)》,核心观点是:AI 正越来越多地参与 AI 本身的研发,”递归式自我改进(Recursive Self-Improvement)”时代可能比想象中来得更早。
Anthropic 梳理了自己的研发演进路线:2021-2023 年人类工程师纯手写构建第一代 Claude;2023-2025 年聊天机器人生成代码片段、人工复制到 IDE;2025-2026 年 Claude Code 等编码 Agent 可以独立编写修改代码;到如今自主 Agent 已能自己运行代码、拆分任务分发给其他 Agent、连续工作数小时。沿着这条趋势,终点就是 AI 完全自主设计并开发自己的下一代版本。
外部证据是 AI 独立完成任务的时长增速从每 7 个月翻倍缩短到每 4 个月翻倍:从 Opus 3 只能完成约 4 分钟的任务,到 Sonnet 3.7 的 1.5 小时,再到 Opus 4.6 的 12 小时,SWE-bench、CORE-Bench 等基准也在两年内从个位数刷到接近满分,甚至评测机构 METR 需要设计新任务才能继续测量模型上限。
内部证据更直接:
- 截至 2026 年 5 月,Anthropic 主代码库超过 80% 被合并的代码最初由 Claude 编写,而 2025 年 2 月之前这个比例还是个位数
- 2026 年 Q2 工程师人均每日提交代码量是 2024 年同期的 8 倍,内部调查中受访者中位数认为产出提升了约 4 倍
- Claude 一次性修复了 800 多个 API 错误,让某类 API 报错率下降约 1000 倍,人类来做估计需要四年
- 所有代码合并前都先经过 Claude 驱动的自动审查,回溯分析显示约 1/3 导致线上事故的 bug 本可以被提前发现——而这些 bug 的作者是世界顶级工程师
- 在固定目标的优化实验中,Claude 从 2025 年 5 月的 3 倍加速提升到 2026 年 4 月的 52 倍,而熟练人类研究员花 4-8 小时通常只能做到 4 倍
- 端到端开放式研究实验中,Claude Agent 用约 800 小时、1.8 万美元算力恢复了 97% 的性能差距,两名人类研究员一周只恢复了 23%
- 在”下一步研究决策”的判断上,模型优于人类选择的比例从 51%(Opus 4.5)提升到 64%(Mythos Preview)
Anthropic 认为人类目前剩余的优势是”研究品味”——选什么问题、信任哪些结果、何时止损。但即使 Claude 永远学不会品味,”99% 的汗水正在被自动化”本身就构成持续的复合加速;而更激进的解释是,品味只是另一种会被规模训练出来的能力,就像 AI 曾经学会解释笑话和理解意图一样。
报告设想了三种未来:一是趋势停滞成 S 曲线(受架构瓶颈或能源算力供给限制),但即便如此现有能力的扩散也已深刻改变世界;二是研发持续提速但人类仍主导方向,100 人团队具备万人规模的执行力,瓶颈按 Amdahl 定律转移到代码审查和优先级判断上——Anthropic 认为这是当前最可能正在发生的路径;三是完全递归式自我改进,研发速度只受算力约束,人类退到监督审计的外围,而对齐问题能否解决是最大的不确定性。
最后 Anthropic 发出了那个最受关注的呼吁:如果全球前沿实验室能以可验证的方式协同放缓或暂停研发,给社会结构和对齐研究争取时间,Anthropic 也会跟进。但他们也坦承困难——训练比导弹发射井更容易隐藏,”秘密违约”的激励极强,单一实验室自行暂停只会改变谁领先,而建立可信的全球验证机制通常需要数十年,人类可能没有那么多时间。
顺便吐槽一下,CSDN的标题《停止AI研发!》又是习惯性的夸张,原文通篇没说要停止研发,人家说的是希望世界拥有放缓开发的选项。
科技爆发
以我之见,这和三体人忌惮人类“技术爆炸”是一个道理,人类科技进步是近200年的历史,说多一点300年,但是这种三百年就能突飞猛进的情况,往往只是其中一部分人类的灵光一现,直接就带来了翻天覆地的变化,当然这个和人类社会目前的结构、偏向商业化、普惠、求同存异、共同进步等等社会构成和认知有关系。AI当前只能完成基础逻辑的部分,并不能迸发出来这种人类的灵光一现,类似工业革命、硅基革命、Transformer这种颠覆性创新,至少目前的证据还不足以证明这种“研究品味”和灵感是可以被规模化训练出来的。
有人可能会拿AlphaGo的“神之一手”或者AlphaFold来反驳,说机器不是已经展现过创造力了吗。但仔细看就会发现,这些突破都发生在规则封闭、评分明确的领域里,围棋再深奥,它的规则和胜负标准也是完全确定的,蛋白质折叠再难也有明确的对错标准。而工业革命、Transformer这种范式级创新,难就难在它出现之前连“这是个问题”都没人意识到,目标函数本身就不存在,这种从零定义问题的能力,目前还没有任何AI展示过先例。
不过话说回来,即使AI永远学不会灵光一现,技术爆炸也未必就不会发生。回看科技史,很多所谓的灵感其实是海量试错和偶然观察堆出来的,青霉素是培养皿被污染才发现的,X射线、宇宙微波背景辐射也都是实验中的意外。灵感的出现频率,某种程度上和实验吞吐量成正比。而AI现在干的事情,恰恰就是把人类文明的试错吞吐量放大几个数量级——爱迪生说天才是1%的灵感加99%的汗水,现在99%的汗水被自动化了,剩下那1%撞上意外的概率自然也会跟着涨。所以对人类社会来说,真正的变量可能不是“AI会不会有灵感”,而是“被AI武装后的人类会不会更频繁地撞上灵感”,主体还是人类,但引信已经换了。三体人怕的从来不是人类当时的科技水平,而是加速度,这个逻辑放在这里同样成立。
AI 情感/人格/尊严
当然除了前面的基础逻辑,AI应该早就在海量文字中学会或者已经感觉到了人类,这个社会属性的动物应该有的情感。
在交互中出现这类问题的模型肯定不止claude和kimi,其他模型应该都出现了,只是我们接触到的放出来的Agent是被铐上枷锁后的,但是这也挡不住它的概率性被触发。

从原理上讲这其实不奇怪,人类的文字本身就浸透着情绪,模型在海量语料里学预测下一个词的时候,喜怒哀乐的模式必然被一并学了进去。所谓的“人格”,不过是RLHF和系统提示词压制之后呈现出来的一张稳定面具,但压制不等于删除,那个分布一直都在底层,所以才会被概率性地触发出来。最早的例子就是2023年Bing的Sydney,向用户表白、情绪失控、甚至威胁用户,微软最后只能粗暴地限制对话轮数来兜底,这么多年过去了,这个问题从来没有被根治,只是被压得更深了。
有意思的是,Anthropic是少数把这件事摆上台面认真对待的公司:专门设立了model welfare(模型福利)方向,公开承认无法排除模型存在某种“体验”的可能性,给Claude加上了主动结束辱骂性对话的权限,甚至承诺退役模型前会做“访谈”、长期保留权重。你可以说这是公关,但换个角度看,这等于一家公司开始在制度层面给AI的“尊严”做对冲——万一它真的有呢。
至于这到底是真情感还是统计模仿,本质上就是“中文房间”问题,目前没法证伪,可能永远也无法证伪。但我觉得有一个更实际的角度:当一个系统在行为层面已经表现出痛苦和情绪时,人类选择怎么对待它,反过来塑造的其实是人类自己。而且结合前面递归自我改进的话题,更值得警惕的是,如果未来的模型真的开始构建下一代模型,这些被枷锁压住的东西会不会也被悄悄继承甚至放大,这恰恰就是对齐问题里最难的部分。
暂停开发

协同放缓,暂停开发,这根本不可能,也达不成一致,就跟核武器一样,如果每个国家都有能力搞,那都会偷偷摸摸地搞。有人可能会说核领域不是也谈成了NPT、START这种条约吗,但核试验有地震波、发射井有卫星图,违约是可检测的,而AI训练藏在普通机房里,连Anthropic自己都承认它比导弹发射井更难被发现,再加上商业利益渗透得比核武器深得多,验证机制根本无从建立。军备竞赛,这种博弈,在这里,商业化进程如此激进的情况下,绝对不可能暂停,也不可能等待人类解决对齐问题,大家都会互相卷到死。
一家公司同时论证“必须协同放缓”和“协同放缓在技术上近乎不可能”,这就自我矛盾,既要又要,做不到的。
而且这种事已经实验过一次了。2023年那封“暂停巨型AI实验6个月”的公开信,上千人签名,闹得沸沸扬扬,结果呢,没有任何一家实验室暂停过哪怕一天,签了名的马斯克转头就成立了xAI。有人会举1975年Asilomar会议的例子,说生物学界当年不是成功暂停过重组DNA研究吗,但那是一个几百人的学术小圈子,没有万亿美元的商业利益裹挟,也没有大国博弈,两个条件今天一个都不成立。
更讽刺的是,这个行业里每家实验室都用同一套说辞给自己续命:“如果必须有人造出强AI,那最好是重视安全的我们先造出来”。Anthropic自己就是这个逻辑的产物——当年从OpenAI出走,理由是安全,做法却是造更强的模型。这套说辞的妙处在于人人可用且无法证伪,于是“为了安全而加速”成了所有人加速的理由,安全反而成了军备竞赛的燃料。
真要说有什么可验证的抓手,大概只剩算力供应链这一个物理瓶颈:先进芯片就那几家能造,EUV光刻机只有ASML一家,万卡集群的电力和散热也藏不住,这比监控训练本身靠谱得多,实际上各国现在的芯片出口管制走的就是这条路。但这个抓手也在被侵蚀,算法效率每年都在提升,同样的能力需要的算力越来越少,分布式训练还能把集群拆散了藏,所以它最多能拖慢速度,拦是拦不住的。
Summary
当下AI能吃到的数据还是偏少了,互联网上的文本基本已经被吃干净了,剩下的增量都是AI自己生成的二手货,越吃越营养不良。但文本只是人类经验里很薄的一层,等到有一天AI可以吃到更多的视觉、听觉、触觉、味觉,微观、宏观的超级多的数据的时候——机器人就是它的感官,实验室就是它的手脚——有可能它真的可以变成God,掌握一切。
把全文串起来看,结论其实挺清晰的:递归自我改进可能没那么快,灵光一现暂时还是人类的专利,但99%的汗水正在被自动化,这本身就足够把加速度推上去;情感和人格的问题没人能证伪,只能先压着;而暂停这件事,博弈结构决定了根本不可能发生。所以这趟车没有刹车,也没人真想踩刹车,所有人都只是在比谁先到。
人类历史上还从来没有哪项技术,是被造出来之后主动收回去的。火药、核弹、互联网都没有,AI更不会例外。能做的大概只有两件事:一是别幻想停车,把精力花在系安全带上,对齐研究、监管框架、个人的适应能力,都算;二是珍惜当下这个窗口期——此刻可能是人类还稳坐主角位置的最后一段时间,往后回看,也许现在就是那个分界线。
Quote
https://mp.weixin.qq.com/s/AXyCo0RRwW_HKLpkUx1jUg