人工智能 10,000 倍小的模型如何智胜 ChatGPT。
为什么思考更长的时间比变得更大更重要 Moulik Gupta 2026 年 4 月 1 日 11 分钟阅读 分享 1。
简介 在过去的十年里,整个人工智能行业始终相信一个不言而喻的惯例:智能只能大规模出现。
我们说服自己,为了让模型真正模仿人类推理,我们需要更大、更深的网络。
毫不奇怪,这导致将更多的变压器块堆叠在一起(Vaswani 等人,2017)5,添加数十亿个参数,并跨数据中心进行训练,这需要兆瓦的电力。
一个微小的网络,如果可以自由地重申自己的解决方案,是否能比一个比自己大数千倍的模型更聪明。
来源:Towards Data Science










