快捷导航

Anthropic创始人：DeepSeek只是以低成本出产出了美国

日期：2025-04-05 07:35 来源：新葡萄(8883·AMG)官方网站

　　DeepSeek 以更低的成本（但远没有人们说的那么低）出产出了一个接近 7-10 个月前美国模子程度的产物。

　　若是中国能获得这些芯片，我们将糊口正在一个两极世界，美中两都城具有强大的 AI 模子，鞭策科技飞速成长——我称之为数据核心里的天才国度。但这种两极均衡不必然能持久维持。即便美中两国正在 AI 系统上势均力敌，中国也可能会将更多人才、资金和精神投入到手艺的军事使用中。再加上其复杂的工业根本和军事计谋劣势，这可能帮帮中国正在全球舞台上取得从导地位，不只是正在 AI 范畴，而是正在所无方面。

　　细心阐发 DeepSeek 目前据报道具有的芯片也很成心义。按照 SemiAnalysis 的阐发，他们总共具有 5 万枚芯片，包罗 H100、H800 和 H20。H100 自觉布以来就被列入出口管制清单，所以若是 DeepSeek 具有任何 H100，这些必然是私运的（留意 Nvidia 曾经声明 DeepSeek 的进展完全合适出口管制）。

　　主要的是，因为这种 RL 方式很新，我们还处正在扩展曲线的晚期：所有参取者正在第二阶段 RL 上的投入都很少。投入从 10 万美元添加到 100 万美元就能带来庞大前进。各公司现正在正正在快速将第二阶段的投入扩大到数亿甚至数十亿美元，但环节是要理解我们正处正在一个奇特的交叉点：一个强大的新范式正处于扩展曲线的晚期，因而能够快速取得严沉冲破。

　　Amodei 指出，我们需要用更宽广的视角来对待 DeepSeek 演讲的开辟成本。他间接挑和了风行的说法。

　　虽然市场和高度关心 DeepSeek 的 R1 模子，但 Amodei 指出该公司更主要的立异呈现正在更早之前。

　　DeepSeek 的表示并不料味着出口管制失败了。如前所述，DeepSeek 具有相当数量的芯片，所以他们可以或许开辟并锻炼出一个强大的模子并不令人不测。他们面对的资本并不比美国 AI 公司严沉几多，他们只常优良的工程师，这也表了然为什么中国是美国的强劲合作敌手。

　　DeepSeek 团队通过一些实正令人印象深刻的立异实现了这一点，次要是正在工程效率方面。他们正在 Key-Value cache 办理方面的改良出格立异，而且将 mixture of experts 方式推进到了史无前例的程度。

　　Sonnet 的锻炼是正在 9-12 个月前完成的，而 DeepSeek 的模子是正在客岁 11/12 月锻炼的，但正在很多内部和外部评测中，Sonnet 仍然连结领先。因而，更精确的说法该当是 DeepSeek 以更低的成本（但远没有人们说的那么低）出产出了一个接近 7-10 个月前美国模子程度的产物。

　　据报道——虽然无法确认实正在性—— DeepSeek 具有 50，000 个 Hopper 一代芯片，我估量这大约是次要美国 AI 公司持有量的 2-3 倍以内（例如，比 xAI Colossus 集群少 2-3 倍）。这些 Hopper 芯片的成本大约正在 10 亿美元摆布。因而，从公司全体收入来看（区别于单个模子的锻炼成本），DeepSeek 取美国 AI 尝试室的差距并不大。

　　DeepSeek 并不是用 600 万美元做到了美国 AI 公司投入数十亿美元才能做到的事！

　　我不会给出具体数字，但畴前面的阐发能够看出，即便按照概况价值接管 DeepSeek 的锻炼成本，他们充其量只是合适趋向，以至可能还达不到。例如，这比原始 GPT-4 到 Claude 3。5 Sonnet 的 API 价钱降幅（10 倍）还小，并且 3。5 Sonnet 的机能还优于 GPT-4。

　　若是中国无法获得数百万枚芯片，我们将（至多临时）糊口正在一个单极世界，只要美国及其盟友具有这些模子。虽然不清晰这种单极款式能持续多久，但至多存正在一种可能：因为 AI 系统最终能帮帮开辟更智能的 AI，临时的领先可能会为持久劣势。正在这种环境下，美国及其盟友可能会正在全球舞台上获得持久的从导地位。

　　- 需要留意的是，扩展曲线阐发可能过于简化了，由于分歧模子有各自的劣势和劣势；扩展曲线上的数字只是一个粗略的平均值，忽略了很多细节。就 Anthropic 的模子而言，正如我前面提到的，Claude 正在编程和人机交互设想方面表示超卓（良多人用它来获取小我或支撑）。正在这些范畴和其他一些特定使命上，DeepSeek 底子无法取之比拟。这些劣势正在扩展数字中是无法表现的。

　　我估量现正在每年大约是 4 倍。这里还有另一种估算方式。锻炼曲线的位移也会带动推理曲线挪动，这就是为什么多年来正在模子机能不变的环境下，价钱一曲正在大幅下降。例如，比 GPT-4 晚 15 个月推出的 Claude 3。5 Sonnet 正在几乎所有测试中都优于 GPT-4，而 API 价钱却低了约 10 倍。

　　好比，投入 100 万美元的模子可能处理 20% 的主要编程使命，投入 1000 万美元可能处理 40%，投入 1 亿美元可能处理 60%，以此类推。这些差别正在实践中影响庞大——再添加 10 倍投入可能就是本科生和博士生程度的差距——这就是为什么各公司都正在大规模投资锻炼模子。compute multiplier)，那么本来需要 1000 万美元才能正在编程使命上达到 40% 的成功率，现正在只需要 500 万美元；本来需要 1 亿美元才能达到 60% 的成功率，现正在只需要 5000 万美元，依此类推。

　　Anthropic、DeepSeek 和很多其他公司 (最惹人瞩目的可能是正在 9 月发布 o1-preview 模子的 OpenAI) 发觉，这种锻炼方式大大提拔了模子正在特定、可客不雅权衡的使命 (如数学、编程竞赛) 以及雷同推理使命上的表示。这种新范式是先有常规的预锻炼模子，然后正在第二阶段用 RL 加强推理能力。

　　H800 正在 2022 岁首年月期的出口管制下是答应的，但正在 2023 年 10 月管制更新时被，所以这些可能是正在前购入的。H20 正在锻炼效率上较低，但正在推理效率上较高——目前仍答应出口，虽然我认为该当。所有这些都表白，DeepSeek 的 AI 芯片库存中相当大一部门是由尚未被（但该当被）的芯片、正在前购入的芯片，以及一些很可能是私运的芯片构成。

　　- 若是成本曲线倍，那么按照一般的营业成长趋向——就像 2023 年和 2024 年发生的成本下降——现正在呈现比 3。5 Sonnet/GPT-4o 廉价 3-4 倍的模子是完全一般的。因为 DeepSeek-V3 比这些美国顶尖模子要差——即便我们很宽大地认为正在扩展曲线倍——那么若是 DeepSeek-V3 的锻炼成本比一年前开辟的美国模子低约 8 倍，这完全合适一般趋向。

　　实正的立异其实是 DeepSeek-V3，它才是一个月前就该当惹起关心的模子（我们其时确实留意到了）。

　　这个出人预料的从底子上改变了人们对 DeepSeek 成本效率的认知。考虑到 Sonnet 是正在 9-12 个月前锻炼的，而且正在很多使命上仍然优于 DeepSeek 的模子，这一成绩更像是 AI 开辟成本天然演进的成果，而不是一个性的冲破。

　　出口管制有着至关主要的目标：确保国度正在 AI 成长中连结领先地位。需要申明的是，这并非逃避中美合作的手段。若是我们想要取告捷利，美国和其他国度的 AI 公司必需开辟出比中国更优良的模子。但正在可能的环境下，我们不应当把手艺劣势拱手让给中国。

　　以下是 Amodei 阐发中的四个环节发觉，它们沉塑了我们对 DeepSeek 通知布告的理解。

　　DeepSeek 并不是用 600 万美元做到了美国 AI 公司投入数十亿美元才能做到的事。就 Anthropic 而言，Claude 3。5 Sonnet 是一个中等规模的模子，锻炼成本正在数万万美元级别（具体数字未便透露）。并且，取某些传言相反，3。5 Sonnet 的锻炼并未依赖更大或更高贵的模子。

　　几周前，我提出该当加强美国对中国的芯片出口管制。而正在这之后，中国 AI 公司 DeepSeek 以较低的成本正在某些范畴达到了接近美国顶尖 AI 模子的机能程度。

　　然而，正在市场动荡和惊动性头条之中，Anthropic 结合创始人、现代大型言语模子 (LLM) 的开创性研究者之一 Dario Amodei 颁发了一份深切阐发，对 DeepSeek 的成绩供给了更为详尽的看法。他的博文摒弃了概况喧哗，深切分解了 DeepSeek 的现实成绩及其对 AI 成长将来的意义。

　　机会和布景也至关主要。按照 AI 开辟成本降低的汗青趋向——Amodei 估量每年约 4 倍——DeepSeek 的成本布局根基合适这一趋向，而不是大幅领先于曲线。 DeepSeek-V3，而不是 R1，才是实正的手艺冲破。

　　上周，中国 AI 草创公司 DeepSeek 颁布发表其最新言语模子 DeepSeek-R1 似乎以远低于常规的成本达到了美国 AI 系统的机能程度，这一动静震动了整个 AI 界。这一颁布发表不只导致 Nvidia 市值蒸发近 6000 亿美元，还激发了关于 AI 将来成长的激烈会商。

　　我们正处正在一个风趣的交叉点，临时呈现了多家公司都能出产出优良推理模子的环境。但跟着各公司正在这些模子上继续向上攀升扩展曲线，这种环境很快就会消逝。

　　人们很快构成了一种说法：DeepSeek 从底子上改变了开辟高级 AI 系统的经济纪律，据称仅用 600 万美元就实现了美国公司投入数十亿美元才能达到的程度。这种解读正在硅谷惹起了轩然大波，由于像 OpenAI、Anthropic 和 Google 如许的公司一曲通过正在计较根本设备上的巨额投资来连结手艺劣势。

　　- DeepSeek 和美国 AI 公司现正在都比锻炼其从打模子时具有更多的资金和芯片。这些额外的芯片用于研发模子背后的立异，有时也用于锻炼更大的尝试性模子（或需要多次测验考试才能达到预期结果的模子）。

　　通过上述三个动态纪律，我们能够更好地舆解 DeepSeek 比来发布的模子。大约一个月前，DeepSeek 发布了纯预锻炼模子 DeepSeek-V3——也就是前文第三点提到的第一阶段模子。上周，他们又发布了添加了第二阶段锻炼的 R1 模子。虽然从外部无法完全领会这些模子的细节，但以下是我对这两次发布的理解。

　　虽然 DeepSeek 确实达到了一个主要里程碑，但并没有从底子上改变高级 AI 开辟的持久经济纪律。