「大爷,您听说过词元吗?就是是最近央视报道、国家宣传的,它是AI 时代的石油、是数字黄金、是下一个比特币。现在有一门稳赚不赔的投资您感兴趣吗——低价囤词元,未来涨百倍」(误,不要信)这是这两天我在一个防诈宣传上看到它列举的典型案例。AI真的太热了,骗子都可以用这个概念骗大爷大妈了。

而你——我的同行们——你既然看到这篇文章,你要么在忙着用大模型重构业务,要么在忙着折腾小龙虾…当你从demo阶段转到实战阶段的时候,你一定已经遇到了一个又一个坑,从刚开始的兴奋不已到困惑不解,为什么不如预期呢?甚至产生了一丝丝怀疑,到底是我不行还是大模型不行?

以小龙虾为例,当它在处理未见过的UI布局时(是的,企业环境里有大量的非公开的UI),效率和准确性会雪崩式的下降,偶尔会陷入“失败-重试”的反复循环,token像流水一样逝去,最终只为了完成一次简单的点击;即使不是模拟操作UI,只是生成一个报表或者月度报告,你敢不敢直接点击“发送”呢?它的确一分钟生成好了,但你要花费十倍的时间去检查验证;更加让人不放心的是,它不理解“删除正式文件”和“删除临时文件”的区别,不加分辨的使用你授予的权限,然后造成悔之不及的后果…

在我实践过的场景中,大模型只在少量的场景上取得了确定性的成功……我相信大家都开始有了这个感受:我们对大模型的期望已然远远超越大模型当前的能力水平。

因此本篇文章,我想安安静静的做一些冷思考,也分享给你。

技术局限性

从技术底层上来看,LLM本质上是在根据海量文本寻找统计相关性,然后预测下一个token,因此LLM有天生的两块短板,一是文本的稀疏性,二是概率的局限性。

首先说说文本的稀疏性。文字语言是人类对现实的一种压缩,它不能代表全部,比如我们不会在书里写:如果你松手,杯子会掉下去——如果哪本书里真写了,那请把这句话改成蒿子粑粑会掉下去,这下总没有了吧,你懂我的意思——因为这是常识。正所谓:一个 10 岁的孩童在成长过程中已经观察了大约 10 亿秒的视频信息(这句话是Yann LeCun说的,图灵奖得主)。这些视频重度参与构建了这名孩童对世界的理解。人类的很多知识是非语言的,但大模型只读过文本,因此寄希望于大模型去准确理解这个世界是天方夜谭

概率的局限性得分几个层次来说。

你问大模型,1+1等于几,它会告诉你等于2,你如果问它753945乘以8723344等于多少,然后你再用计算器算一下看看LLM是不是在胡扯…(gemini很自信的告诉我答案是6,576,922,084,080,这个数字很像但是不对)。为什么会这样呢?一个小学四年级的学生都能算对,高科技的大模型人工智能却回答不对!这是因为大模型不是在计算,而是在根据训练语料库里的字词概率去模拟,因此具体到某个大数的乘法,它的语料库里缺乏相应的记录,它就没办法“算对”了。这正是概率的局限性的第一点:统计相关性不等同于逻辑因果律大模型并不理解逻辑因果律,它只是在模仿人类描述这一现象的频率。当面对需要严密因果链条的复杂推理时,如果逻辑链条中某个环节在语料中从未出现过,模型就会根据概率凑出一个听起来最像人话、但逻辑全错的答案。

概率的第二个局限性可以称之为平庸化。大模型在生成文本的过程中,为了让输出的 结果像那么回事,会倾向于选择高概率的词,追求概率最大化的后果就是天然的倾向于输出最稳妥、最符合大众思维的正确的废话,对于那些在语料库中出现频率不高的精准的冷门知识,会被高频的、似是而非的错误知识所干扰,最终大模型输出的内容会趋向平庸化。有一份研究报告提到过互联网上高质量的人类文本的总量大约在几百万亿级别,像Llama、GPT这种级别的模型,训练数据量已经达到15万亿。当人类高质量语料用尽之时,大模型厂商不得不使用充满了广告、SEO垃圾和低质量对话甚至AI生成的数据来训练下一代AI,可以想见,这不仅没办法提高模型的能力,反而会降低模型的能力,因为低质量人类语料带来的是噪音,AI生成的语料带来的是近亲繁殖,信息熵减。

大模型这种基于序列的概率模型还存在误差累积的局限性。假设LLM在每一步预测正确的概率是99%,由于LLM每输出一个token,这个token就会变成下一步预测的已知条件,那么第一个词是99%的正确率,到第100个词的时候整个序列完全正确的概率就变成了0.99的100次方,也就是36.6%。如果某一步选错了词,大模型会基于这个错误的词继续计算下一个概率最高的结果,这就像在一个错误的公式上继续推导,结果就是一本正经的胡说八道。

在这些技术底层原理的局限下,势必会导致LLM天然有着自己的上限,天然有着无法胜任的场景。当然,我们可以辅以其他手段来改善,比如定制一些高质量的语料来训练、挂载RAG来注入上下文或者用专家知识来做输出结果的校验等等,但越是不能出错的场景,带来的额外开销就会越大,最后大到无法承受(正如当年知识图谱路线走过的老路),大到等同于impossible。

发展瓶颈期

随着高质量人类文本语料的消耗完毕以及算力规模基数的不断增大,增加算力和数据带来的准确率提升将越来越小, 仅仅靠喂更多数据已经换不来智力层面的有感知的变化。深度思考的出现,本身就证明预训练层面的边际收益已经不经济了,因此需要转到推理层面的规模化,加入越来越多的逻辑推演,逻辑推演对算力的消耗是随步骤指数级增长的。未来单位算力的价格肯定会下降,但算力降价的速度可能永远赶不上逻辑深度增加的需求,因为线性的追不上指数。

大家都有感受,现在token的消耗速度,相较于去年上半年的时候,有了大幅的增加,就是token好像不耐用了,随随便便一百万token就没了。

成本在上升,但是否带来了有效的收入增长呢? 如果一个企业需要 5 年时间才能把 AI 变成企业生产力,那么前期的巨额基础设施投入就会产生极大的资金折旧和机会成本。

从另一个角度看,如果AI只能解决有限的特定的场景,比如初级编程、写作、翻译、RPA,那这些场景能带来的收入是否能支持后续的AI成本增长呢?除了这些易学习、强模式的任务,还有很多任务是环境敏感型的,我们在落地的时候,有一些环境因素可以知识化表达给大模型,然后保持动态更新,这带来的额外成本一时半会也算不清楚,更别提另有一些环境因素,并不能形成文字(微妙的人情世故),那大模型就很难起到作用。

结语

我们总是倾向于在短期内过高估计一项技术的影响,而在长期内过低估计它。不可否认,大模型是革命性的突破,但在全民疯狂的时候,不妨保持头脑的冷静,谨慎的乐观,有限制的试点,有计划的投入,在一个浪潮兴起时,活到最后的,往往不是第一批弄潮儿。