将更多数据放入更大的模型中就能打造更智能的系统这一想法已经开始土崩瓦解
推动 英伟达成为全球市值最高公司的计算“法则”正开始失效。这并不是著名的摩尔定律——摩尔定律是半导体行业的格言,即每两年晶体管密度翻一番,芯片性能就会提高。
在美国硅谷,摩尔定律已成为技术进步的主要预测指标,而新概念则取代了摩尔定律:人工智能的“规模法则”(Scaling Law)。这一法则认为,将更多数据放入更大的人工智能模型中(这反过来又需要更多的计算能力)可以构建更智能的系统。这一洞见推动了人工智能的发展,将开发的重点从解决棘手的科学问题转变为更直接的工程挑战,即构建越来越大的芯片集群(通常是 Nvidia 的芯片集群)。
随着 ChatGPT 的推出,规模法则初露锋芒。此后两年,人工智能系统的飞速发展似乎表明,这一规则可能一直有效,直到我们在本世纪内达到某种“超级智能”。然而,过去一个月,行业内越来越多的声音表明,OpenAI、谷歌和Anthropic等公司推出的最新模型并未表现出与规模法则预测相符的预期改进。
“2010 年代是规模化的时代,现在我们再次回到了一个充满惊奇与发现的时代,”OpenAI联合创始人伊利亚·苏茨克维尔(Ilya Sutskever)最近对路透社表示。这位一年前还认为“地球表面可能会被太阳能电池板和数据中心覆盖以为AI提供动力”的人,如今也调整了看法。
直到最近,规模法则主要应用于“预训练”阶段,这是构建大型AI模型的基础步骤。现在,AI领域的高管、研究人员和投资者都承认,仅靠预训练,AI模型的能力正在——用马克·安德森(Marc Andreessen)在其播客中的话说——“见顶”,这意味着在模型完成后,需要更多工作才能继续推动技术进步。
一些规模法则的早期支持者(例如微软首席执行官萨提亚·纳德拉)试图重新定义这一概念。辩护者认为,即使预训练的回报在缩减,也没关系,因为模型现在可以在被问及复杂问题时进行“推理”。“我们正看到一种新规模法则的出现,”纳德拉最近提到OpenAI的新o1模型时表示。但这样的说法可能会让英伟达的投资者感到不安。
当然,规模“法则”从来都不是一条铁律,就像摩尔定律也没有让英特尔工程师能无限提高晶体管密度一样。这些概念更多是行业的指导原则,推动竞争和进步。
尽管如此,规模法则的假设激发了对下一次科技变革的“错失恐惧”(FOMO),促使科技巨头对AI进行前所未有的投资。据摩根士丹利估算,微软、Meta、亚马逊和谷歌的资本支出今年将超过2000亿美元,明年可能突破3000亿美元。没有人想在构建超级智能的竞赛中落后。
但如果“更大”不再意味着“更好”,这些计划会被削减吗?英伟达可能比大多数公司面临更大的风险。上周英伟达公布业绩时,分析师的第一个问题就与规模法则有关。英伟达首席执行官黄仁勋坚持认为,预训练的扩展仍然“有效”,但承认它“仅靠自身”还不够。黄认为,对英伟达来说,好消息是解决方案需要更多的芯片,比如所谓的“推理时间扩展”(Test Time Scaling),因为像OpenAI的o1这样的AI系统需要更长时间来“思考”以生成更智能的回答。
这或许是事实。虽然训练阶段消耗了英伟达大部分的芯片,但随着更多AI应用的出现,“推理”(即模型对每个查询的响应)的计算需求预计将迅速增长。
参与构建AI基础设施的人认为,至少在未来一年内,行业将在推理计算需求上“迎头赶上”。“目前,这个市场需要的是更多的芯片,而不是更少,”微软总裁布拉德·史密斯(Brad Smith)表示。
但从长远来看,为训练更大模型而追逐芯片的热潮,正在被与AI实际使用更紧密相关的需求所取代。多数企业仍在寻找AI的“杀手级应用”,特别是在需要新兴o1模型“推理”能力的领域。
在人工智能建设的投机阶段,英伟达成为了全球最有价值的公司。而规模法则的争议则凸显了其未来有多大程度能否从科技巨头巨额投资中获得实际回报。
文章源自The Financial Times《Nvidia and the AI boom face a scaling problem》