其实,圈内人对 AI 都有一个终极期望,就是实现 AGI (通用人工智能),说白了,就是造出“和人一样聪明的AI”。
咱去马斯克的社交平台上逛一圈,会发现他三句不离AGI。。
OpenAI的奥特曼也在疯狂预言,AGI即将到来,也就这三五年的事儿了。
但这玩意,到底咋衡量呢?俗话说得好,人和人的区别,比人和猪的区别还大。。到底啥水平,才能和人一样聪明啊?
就连天天为了AGI吵架的大佬们,也根本说不出来,AGI到底是个啥。。
合着都在这虚空对线是吧。
所以最近,一群顶尖的行业大佬实在看不下去了,几十位专家联手发表了一篇论文,作者阵容堪称全明星级别,其中包括图灵奖得主、谷歌前CEO等重量级人物。他们共同协作,提出了迄今为止首个关于AGI的量化定义。
他们也顺便用GPT模型做了个测试,结果显示,如果AGI是100分,GPT-5只有58分,不及格的水平。
这帮大佬的核心观点是:AGI,就是一种能达到“一个受过良好教育的成年人”的能力的人工智能。
他们把心理学中一个最权威的理论,CHC 理论,给AI搬过来了。
CHC 的观点,简单来说,就是智力这玩意,不是一个单一的标准能衡量的东西,需要多维度考察。
说白了,这就和高考差不多。一门课强根本不够,你得门门都强,才证明你厉害。
所以,他们把 AI 的能力分成了 10 个核心能力,每个占了 10% 的分。它们分别是:
(K)通识知识、(RW)读写能力、(M)数学能力、(R)即时推理、(WM)工作记忆、(V)视觉处理、(A)听觉处理、(S)反应速度、(MS)长期记忆存储、(MR)长期记忆检索。
这里面比较抽象的,可能就是工作记忆和长期记忆了。
工作记忆本质上就是短期记忆,指的是我刚说过的内容,你当下还能回想起来;长期记忆则是AI通过和我对话,把新东西永久性地学会了,就好比你读过书,哪怕毕业多年,“奇变偶不变”这类知识也像刻在骨子里一样忘不掉。
每一种能力,他们都会叫AI测试,也就是写他们精心准备的测试题。比如(R) 即时推理这一块,他们就专门找了些略微烧脑的问题,比如:
David认识张先生的朋友Jack,Jack认识David的朋友林女士。所有认识Jack的人都拥有硕士学位,而所有认识林女士的人都是上海人。那么请问,谁同时具备上海人和硕士学位这两个身份呢?
他们邀请了OpenAI的两位核心成员——GPT-4(2023年推出)与GPT-5(预计2025年推出)参与测试。最终成绩显示,GPT-4获得27分,GPT-5得到58分,两者相加仍未突破100分的总分线。
而且,咱来看看这成绩单,有拉满的,也有拉裤兜的,纯纯严重偏科。
比如 GPT-5,在通识(K)、读写(RW)、数学(M)这几项上,直奔 9 分 10 分。所以说目前来看,这几项是AI的强项。
而 (MS) 长期记忆存储这项,GPT-5纯纯大光头,3-4分的也有一堆。而GPT-4更不用说,好几项都是0分。
这一项实际上考察的是AI是否具备持续学习并获取信息的能力。相关论文研究发现,当前的AI存在明显的“健忘”问题——你当天教给它的知识,到了第二天它就会彻底遗忘。
他们做测试的方法,就是第一天跟AI讲一些东西,然后第二天单开一个对话,再让AI回想。
都不用猜,包想不起来的,大伙用过都知道,新开窗口就会清空记忆,那得分不是0就怪了。。
有的人会反驳,现在的AI早就有永久记忆了。但文章中其实谴责了这一点,现在AI的记忆,根本不是真正的记忆,他们只是在假装自己有记忆。
作者们将这种策略称为“能力扭曲”——借助某一领域的长处去填补其他领域的显著短板,从而营造出“AI具备真实能力”的假象。就拿当下的AI记忆来说,它其实是在拼命拓展上下文窗口的长度,或是依靠知识库来达成,本质上相当于外挂,模型自身根本不具备任何记忆能力。
除了记忆力,长期记忆检索ai们也很拉,说白了,就是检测幻觉,别睁眼说瞎话。
当然,还有一项大伙都很拉的功能,(V) 视觉处理。 GPT-4是0分, 而GPT-5进化过后,也只来到4分。
它考的不是简单的“这图里有啥”,考的是视觉推理。这对大模型来说,可就难多了。比如说,咱来试一道:
“下面这 4 个 2D 展开图里,哪一个不能折成左边那个立方体?”
还真有点难度,但我们人类稍加思索,还是能做出来的。我也去求证了下Gemini,结果确实是无法战胜。
这也说明,AI的眼睛和脑子,目前配合的不是很好,还没有人类这种,边看边想就解决问题的能力。
当然,这份报告,肯定还是不够完美的。除了这十个维度,人脑还有联想等其他难以名状的能力,人类可太复杂了,不是几道题就能测明白的。
但它最大的价值,是给当下的 AI 做了一次全面诊断:AI现在还是瘸腿,在一些人类最基本的认知能力上,仍然有严重的缺陷。
而且,现在的 AI 厂商会还用一些捷径,来掩盖这些弱点。
因此,这篇文章也在给大家敲警钟:这样搞出来的 AI,是到不了 AGI 的。
但奥特曼在前一阵的直播里还说了,AGI在路上了,我只能说,走着瞧了。
当然,俺觉得,这套标准本身也有不小的槽点。
人家AGI ,凭啥非要模仿人类啊?它很可能是一种完全不同的智能。硬拿人类的 CHC 理论去套 AGI,是否有点刻舟求剑的意味了。
而且,这个标准设定得也有些偏高了。说实话,AI要是能达到“没受过教育的小孩”那样的水平,就已经很了不起了。更何况,有相当一部分人类自己都没办法通过这个测试呢。
不过,不管怎么吐槽,有人提出标准就是好事。
它最大的意义,是终于把 AGI 这个话题从玄学的范畴,拉回到了一个可以讨论的具体问题上。
就算这个标准不完美,它也会逼着整个行业开始思考,我们到底在追求什么,以及我们到底缺了什么。
这总比大家都在吹牛,说自己快要实现 AGI要强得多。