云平台手机怎么登录
热点资讯
新闻动态

你的位置:云平台手机怎么登录 > 新闻动态 > Anthropic CEO谈DeepSeek: 水平相当于10个月前美国主流模型, 但成本要低得多

Anthropic CEO谈DeepSeek: 水平相当于10个月前美国主流模型, 但成本要低得多

发布日期:2025-02-04 15:23    点击次数:201

鞭牛士报道,1月30日消息,据外电报道,在周三的一篇文章中,Anthropic首席执行官达里奥·阿莫迪(DarioAmodei)对中国人工智能公司DeepSeek的成功是否意味着美国对人工智能芯片的出口管制不起作用的争论进行了探讨。

Amodei最近与美国前副国家安全顾问MattPottinger共同撰写了一篇专栏文章,呼吁加强出口管制。

他在文章中表示,他认为当前的出口管制正在减缓DeepSeek等中国公司的进步。Amodei表示,与美国最强大的人工智能模型相比,DeepSeek在发布时间方面存在不足。

「DeepSeek生产的模型性能接近7-10个月前美国模型的性能,但成本却低得多(但远不及人们建议的比率)。」Amodei说。「这是持续成本降低曲线上的一个预期点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。」

Amodei将DeepSeek的旗舰模型之一DeepSeekV3与Anthropic的Claude3.5Sonnet进行了比较,他说后者的训练成本高达数千万美元。

Sonnet的训练在9到12个月前就完成了,而DeepSeek的模型是在11月或12月训练的——然而,Amodei指出,Sonnet在许多内部和外部评估中仍然保持领先。

「美国公司也在实现成本削减的正常趋势。」Amodei补充道。「DeepSeek开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。」

Amodei在文章中称DeepSeek是非常有才华的工程师,他们展示了为什么中国是美国的有力竞争对手。

他预计,特朗普政府采取的出口政策将决定DeepSeek的未来走向。在特朗普上任之前,即将离任的拜登政府对硬件出口实施了新的限制,这些限制计划在未来几个月内生效,但如果特朗普愿意,这些限制可能会被取消。

阿莫迪声称,如果特朗普加强出口规则,阻止中国获得阿莫迪所说的用于人工智能开发的数百万芯片,美国及其盟友可能会建立绝对的、持久的领先地位。

阿莫迪担心,另一方面,如果美国不加大中国进口人工智能芯片的难度,中国可能会将更多的人才、资本和精力投入到人工智能技术的“军事应用上。

「结合其庞大的工业基础和军事战略优势,这可能有助于中国在全球舞台上占据主导地位。」阿莫迪说。「需要明确的是,这里的目标并不是否认中国或任何其他专制国家从非常强大的人工智能系统中获得的科学、医学、生活质量等方面的巨大好处。每个人都应该能够从人工智能中受益。目标是防止他们获得军事优势。」

看来Amodei很可能会得到他想要的结果。在周三的参议院听证会上,亿万富翁商人、特朗普挑选的商务部长HowardLutnick指责DeepSeek窃取了美国的知识产权。

「这表明,我们的出口管制没有关税支持,就像打地鼠游戏一样。」卢特尼克说。「中国的关税应该是最高的。」

作为商务部长,卢特尼克将在执行特朗普提高和执行关税的计划中发挥关键作用。

Anthropic的主要竞争对手OpenAI也呼吁特朗普政府采取更积极的措施,确保美国在人工智能领域的主导地位。

OpenAI在最近发布的一份政策文件中警告称,如果美国不能为人工智能项目吸引到必要的全球资金,这些资金将流向中国支持的项目,并加强中国的全球影响力。

以下为阿莫迪全文:

几周前,我主张美国加强对华芯片出口管制。自那以后,中国人工智能公司DeepSeek至少在某些方面以更低的成本接近美国前沿人工智能模型的性能。

在这里,我不会关注DeepSeek是否对Anthropic等美国人工智能公司构成威胁(尽管我确实认为,许多关于它们对美国人工智能领导地位构成威胁的说法都被大大夸大了)注释1。相反,我将关注DeepSeek的发布是否会破坏芯片出口管制政策的理由。我认为不会。事实上,我认为它们使出口管制政策比一周前更加重要。注释2。

出口管制有一个至关重要的目的:让国家走在人工智能发展的前沿。需要明确的是,这不是避开美国和中国之间竞争的方法。归根结底,如果我们想获胜,美国和其他国家的人工智能公司必须拥有比中国更好的模式。但我们不应该在没有必要的情况下将技术优势拱手让给中国。

人工智能发展的三大动力

在我提出政策论点之前,我将描述理解人工智能系统的三个至关重要的基本动态:

扩展定律。人工智能的一个特性(我和我的联合创始人在OpenAI工作时是第一批记录下来的)是,在其他条件相同的情况下,扩大人工智能系统的训练范围可以全面改善一系列认知任务的结果。例如,一个价值100万美元的模型可能解决20%的重要编码任务,价值1000万美元的模型可能解决40%,价值1亿美元的模型可能解决60%,等等。这些差异在实践中往往会产生巨大的影响——另一个10倍可能对应于本科生和博士生技能水平之间的差异——因此公司正在大力投资训练这些模型。

改变曲线。这个领域不断涌现出大大小小的想法,使事情变得更加有效或高效:这可能是对模型架构的改进(对当今所有模型使用的Transformer基本架构进行调整),也可能只是一种在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常会改变曲线:如果创新是2倍的“计算乘数”(CM),那么它可以让您以500万美元而不是1000万美元的价格获得40%的编码任务;或者以5000万美元而不是1亿美元的价格获得60%的编码任务,等等。每个前沿AI公司都会定期发现许多这样的CM:通常是小型的(~1.2倍),有时是中型的(~2倍),偶尔也会发现非常大的(~10倍)。由于拥有更智能系统的价值如此之高,这种曲线的转变通常会导致公司在训练模型上花费更多,而不是更少:成本效率的提高最终完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被“一开始很贵,然后会变得更便宜”的想法所吸引——好像人工智能是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少的芯片来训练它。但重要的是缩放曲线:当它移动时,我们只是更快地遍历它,因为曲线末端的价值是如此之高。2020年,我的团队发表了一篇论文,指出由于算法进步导致的曲线变化约为每年1.68倍。自那以后,这一速度可能已经大大加快;它也没有考虑到效率和硬件。我猜今天的数字可能是每年约4倍。另一个估计是在这里。训练曲线的变化也会改变推理曲线,因此多年来,在模型质量保持不变的情况下,价格大幅下降。例如,比原始GPT-4晚15个月发布的Claude3.5Sonnet在几乎所有基准测试中都胜过GPT-4,同时API价格降低了约10倍。

转变范式。每隔一段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。从2020年到2023年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。2024年,使用强化学习(RL)训练模型以生成思维链的想法已成为扩展的新焦点。Anthropic、DeepSeek和许多其他公司(也许最值得注意的是9月份发布了o1预览模型的OpenAI)发现,这种训练极大地提高了某些选定的、客观可衡量的任务(如数学、编码竞赛)以及类似于这些任务的推理的性能。这种新范式涉及从普通类型的预训练模型开始,然后在第二阶段使用RL添加推理技能。重要的是,由于这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对于所有参与者来说,在第二个强化学习阶段花费的金额都很小。花费100万美元而不是10万美元就足以获得巨大的收益。各公司现在正在迅速努力将第二阶段的规模扩大到数亿甚至数十亿美元,但至关重要的是要明白,我们正处于一个独特的“交叉点”,其中有一个强大的新范式处于扩展曲线的早期阶段,因此可以快速获得巨大收益。

DeepSeek的模型

上述三个动态可以帮助我们了解DeepSeek最近的发布。大约一个月前,DeepSeek发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型3—即上文第3点中描述的第一阶段。然后上周,他们发布了“R1”,其中增加了第二阶段。从外部无法确定这些模型的所有内容,但以下是我对这两个版本的最佳理解。

DeepSeek-V3实际上是真正的创新,一个月前就应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近4个最先进的美国模型,同时训练成本大大降低(尽管我们发现Claude3.5Sonnet在其他一些关键任务(例如真实世界编码)上的表现尤其好)。DeepSeek团队通过一些真正令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率上。在管理称为“键值缓存”的方面以及使称为“专家混合”的方法比以前更进一步方面,都有特别创新的改进。

然而,仔细观察是很重要的:

DeepSeek不会“以600万美元完成美国AI公司花费数十亿美元完成的任务”。我只能代表Anthropic发言,但Claude3.5Sonnet是一个中型模型,训练成本高达几千万美元(我不会给出确切数字)。此外,3.5Sonnet的训练方式并未涉及更大或更昂贵的模型(与一些传言相反)。Sonnet的训练是在9-12个月前进行的,DeepSeek的模型是在11月/12月进行的,而Sonnet在许多内部和外部评估中仍然遥遥领先。因此,我认为一个公平的说法是“DeepSeek生产的模型接近7-10个月前美国模型的性能,成本要低得多(但远不及人们建议的比例)”。

如果成本曲线下降的历史趋势是每年约4倍,这意味着在正常业务过程中——在历史成本下降的正常趋势中,例如2023年和2024年发生的情况——我们预计现在的模型比3.5Sonnet/GPT-4o便宜3-4倍。由于DeepSeek-V3比美国前沿模型更差——假设在扩展曲线上差约2倍,我认为这对DeepSeek-V3来说相当慷慨——这意味着如果DeepSeek-V3的训练成本比一年前开发的当前美国模型低约8倍,这将是完全正常的,完全“符合趋势”。我不会给出一个数字,但从前面的要点可以清楚地看出,即使你从表面上看DeepSeek的训练成本,它们充其量也符合趋势,甚至可能甚至不符合趋势。例如,这比原始GPT-4到Claude3.5Sonnet推理价格差异(10倍)要小,而且3.5Sonnet是一个比GPT-4更好的模型。所有这些都表明,DeepSeek-V3并不是一项独特的突破,也不是从根本上改变LLM经济的东西;它是持续成本降低曲线上的一个预期点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。这种情况从未发生过,具有地缘政治意义。然而,美国公司很快就会效仿——他们不会通过复制DeepSeek来做到这一点,而是因为他们也在实现成本降低的通常趋势。

DeepSeek和美国AI公司都拥有比他们训练主要模型时更多的资金和芯片。额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型(或需要多次尝试才能正确)。据报道——我们不能确定它是否属实——DeepSeek实际上拥有50,000个Hopper代芯片6,我猜这大约是美国主要AI公司所拥有芯片的2-3倍(例如,它比xAI“Colossus”集群少2-3倍)7。这50,000个Hopper芯片的成本约为10亿美元。因此,DeepSeek作为一家公司的总支出(与训练单个模型的支出不同)与美国AI实验室并没有太大差别。

值得注意的是,“缩放曲线”分析有些过于简单化,因为模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论Anthropic的模型,但正如我上面所暗示的,Claude非常擅长编码,并且拥有精心设计的与人互动的风格(许多人用它来获得个人建议或支持)。在这些任务和其他一些任务上,DeepSeek根本无法与之相比。这些因素没有出现在缩放数字中。

R1是上周发布的模型,它引发了公众的强烈关注(包括Nvidia股价下跌约17%),但从创新或工程角度来看,它远不如V3那么有趣。它增加了第二阶段的训练——强化学习,如上一节第3点所述——并且基本上复制了OpenAI对o1所做的事情(它们的规模似乎相似,结果也相似)8。但是,因为我们处于扩展曲线的早期阶段,所以只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。在V3的情况下生产R1可能非常便宜。因此,我们处于一个有趣的“交叉点”,暂时有几家公司可以生产出好的推理模型。随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。

出口管制

以上只是我感兴趣的主要话题的序言:对华芯片出口管制。鉴于上述事实,我认为情况如下:

有一种趋势是,公司在训练强大的人工智能模型上投入了越来越多的资金,尽管曲线会定期发生变化,训练特定水平的模型智能的成本会迅速下降。只是训练越来越智能的模型的经济价值是如此之大,以至于任何成本收益几乎都会立即被吃掉——它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同。在美国实验室尚未发现的情况下,DeepSeek开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的人工智能。

制造出在几乎所有方面都比人类更聪明的人工智能将需要数百万个芯片,数百亿美元(至少),而且最有可能在2026-2027年实现。DeepSeek的发布不会改变这一点,因为它们大致处于预期的成本降低曲线上,而这一直被计入这些计算中。

这意味着,在2026-2027年,我们可能会陷入两个截然不同的世界。在美国,多家公司肯定会拥有所需的数百万个芯片(成本高达数百亿美元)。问题是中国是否也能获得数百万个芯片9。

如果可以的话,我们将生活在一个两极世界,美国和中国都拥有强大的人工智能模型,这将推动科学技术的极速进步——我称之为“数据中心的天才国家”。两极世界不一定会无限期保持平衡。即使美国和中国在人工智能系统方面势均力敌,中国似乎也可能会将更多的人才、资本和精力投入到该技术的军事应用上。再加上其庞大的工业基础和军事战略优势,这可以帮助中国在全球舞台上占据主导地位,不仅是在人工智能领域,而是在所有领域。

如果中国无法获得数百万个芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界是否会持续下去,但至少存在这样一种可能性,即由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可以转化为持久的优势10。因此,在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位并保持长期领先。

只有严格执行出口管制11才能阻止中国获得数百万芯片,因此也是决定我们最终是进入单极世界还是两极世界最重要的因素。

DeepSeek的表现并不意味着出口管制失败。正如我上面所说,DeepSeek拥有中等到大量的芯片,因此他们能够开发并训练出强大的模型也就不足为奇了。他们的资源限制并不比美国AI公司严重,出口管制也不是促使他们“创新”的主要因素。他们只是非常有才华的工程师,并展示了为什么中国是美国的有力竞争对手。

DeepSeek也没有表明中国总能通过走私获得所需的芯片,或者管制总是有漏洞。我不相信出口管制的目的是阻止中国获得数万个芯片。10亿美元的经济活动可以隐藏,但很难隐藏1000亿美元甚至100亿美元。100万个芯片在物理上也很难走私。看看DeepSeek目前报道的芯片也是有启发性的。根据SemiAnalysis的说法,这是H100、H800和H20的混合体,总计5万个。自发布以来,H100就被出口管制禁止,所以如果DeepSeek有任何芯片,它们一定是走私来的(请注意,Nvidia已声明DeepSeek的进展“完全符合出口管制”)。H800在2022年第一轮出口管制中是被允许的,但在2023年10月管制更新时被禁止,所以这些芯片可能是在禁令之前发货的。H20的训练效率较低,采样效率较高——虽然我认为应该禁止,但仍然被允许。所有这些都表明,DeepSeek的AI芯片群中似乎有相当一部分是由尚未被禁止(但应该被禁止)的芯片、在被禁止之前发货的芯片以及一些似乎很可能是走私的芯片组成。这表明出口管制确实在发挥作用和适应:漏洞正在被堵塞;否则,他们可能会拥有一支顶级的H100大军。如果我们能够足够快地堵塞它们,我们也许能够阻止中国获得数百万个芯片,从而增加美国领先的单极世界的可能性。

鉴于我关注的是出口管制和美国国家安全,我想明确一点。我不认为DeepSeek本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。

但他们受制于一个侵犯人权、在世界舞台上表现咄咄逼人的独裁政府,如果他们能在人工智能领域与美国匹敌,这些行动将更加不受约束。出口管制是我们防止这种情况发生的最有力工具之一,而认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法完全没有道理。

脚注

1在本文中,我不会对西方模型的提炼报告持任何立场。在这里,我只是相信DeepSeek的说法,他们按照论文中说的方式进行训练。↩

2顺便说一句,我认为DeepSeek模型的发布对Nvidia来说显然不是坏事,而他们的股价因此而出现两位数(约17%)的下跌令人费解。这次发布对Nvidia来说不是坏事的理由甚至比对AI公司来说不是坏事的理由更明显。但我在这篇文章中的主要目标是捍卫出口管制政策。↩

3准确地说,它是一个预训练模型,其中包含推理范式转变之前模型中典型的少量RL训练。↩

4它在一些非常狭窄的任务上表现更强。↩

5这是DeepSeek论文中引用的数字——我只是照单全收,并不怀疑这部分内容,只是与美国公司模型训练成本的比较,以及训练特定模型的成本(600万美元)与研发总成本(高得多)之间的区别。然而,我们也不能完全确定600万美元——模型大小是可验证的,但其他方面(如代币数量)则不可验证。↩

6在一些采访中,我说他们有“50,000块H100”,这是对报道的一个微妙的错误总结,我想在这里纠正一下。迄今为止,最知名的“Hopper芯片”是H100(我猜想指的是它),但Hopper还包括H800和H20,据报道DeepSeek拥有这三种芯片的混合,总计50,000块。这并没有改变太多情况,但值得纠正。当我谈论出口管制时,我会更多地讨论H800和H20。↩

7注:由于出口管制,我预计这一差距在下一代集群中会大大扩大。↩

8我怀疑R1受到如此多关注的主要原因之一是它是第一个向用户展示模型所展现的思路推理的模型(OpenAI的o1仅显示最终答案)。DeepSeek表明用户对此很感兴趣。需要明确的是,这是一个用户界面选择,与模型本身无关。↩

9请注意,中国自己的芯片短期内无法与美国制造的芯片竞争。正如我在最近与MattPottinger的专栏文章中所写:“中国最好的AI芯片华为Ascend系列的性能远不及美国Nvidia制造的领先芯片。中国也可能没有足够的生产能力来满足不断增长的需求。如今,中国境外没有一个值得注意的华为Ascend芯片集群,这表明中国正在努力满足国内需求......”。↩

10需要明确的是,这里的目标并不是否认中国或任何其他专制国家从非常强大的人工智能系统中获得的科学、医学、生活质量等方面的巨大好处。每个人都应该能够从人工智能中受益。目标是防止他们获得军事优势。↩

11有几个链接,因为已经进行了多轮。涵盖一些主要动作:一、二、三、四。↩



友情链接:

Powered by 云平台手机怎么登录 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024