在分析DeepSeekv3的本文时,我们首先要认识到其背后的发展逻辑。DeepSeekv3作为后发模型,具有避免前人错误的优势,能够在巨人的肩膀上进行更高效的研究和开发。这意味着,在同等算力的情况下,DeepSeekv3能够实现更高的收益,这是通过榨取算力潜力来实现的。这种趋势在模型训练成本中也有所体现,例如o1的训练成本远超GPT-4,而o3的训练成本预计会更高。从这个角度来看,随着技术的不断进步,训练模型所需的算力呈指数级增长,这包括算法的改进、算力的通缩以及数据蒸馏等因素的影响。因此,后发模型如DeepSeekv3能够以更低的算力实现更高的性能,这是合理的,并且可以作为未来模型训练成本下降速度的一个预测。
在理解这一现象时,我们需要注意几个概念上的误解。幻方在其本文中明确指出,所提到的成本仅包括DeepSeek-V3的正式训练,而不包括与架构、算法、数据相关的前期研究、消融实验的成本。这意味着,尽管在训练阶段降低了成本,但这并不意味着整体需求会降低,而只是表明大型企业可以用更具成本效益的方式探索模型的极限能力。
从应用的角度来看,只要需求增长的逻辑存在,推理的需求就仍然值得期待。随着公开互联网数据的穷尽,合成数据将成为突破数据天花板的重要来源,且理论上天花板足够高。这意味着过去的预训练范式已经从卷参数、卷数据总量转向了卷数据质量、新的Scaling因子(例如RL、测试时间计算等),而算力只是转移到了其他训练环节。从目前各大实验室的实际情况来看,如OpenAI、Anthropic等至今仍处于缺卡状态,幻方也是如此。因此,我们不能仅从某代模型某次训练的切面来看训练算力是否下降,而应该从总量以及自上而下去看,这些实验室的训练算力总需求是否下降了?实际上,需求量一直在上升。
预训练的经济效益下降并不意味着投入会减少,真实逻辑应该是榨取同等算力以获取更高的收益。例如,o1的训练成本远超GPT-4,而o3的训练成本预计会更高。从前沿探索的角度来看,训练所需的算力只会越来越多。应用生态的繁荣只会增加训练投入的支付能力;而算力的通缩只会让同等投入购买到更多的训练Flops。就像幻方这次发布的模型,它仍然是在LLM路线下,将MoE压榨到了极致。但可以相信,幻方自己的推理模型r1(对标o1)也在探索r2/r3,这显然需要更多的算力。而r2/r3训练完成后,又被用来消耗大量算力为deepseekv4合成数据。这样,pre-trainscaling、RLscaling、test-timecomputescaling三条线甚至还有正反馈效应。因此,只有在可获得最大资源的前提下,才能用最高效的算法/工程手段,压榨出最大的模型能力提升。而不会因为效率提升而减少投入,这是一个伪逻辑。对于推理而言,需求无疑是上升的。
引用星球内洪博的评论:DeepSeek-V3的出现(可能还包括轻量版V3-Lite),将支持私有部署和自主微调,为下游应用提供了远大于闭源模型时代的发展空间。未来一两年内,我们大概率将见证更丰富的推理芯片产品和更繁荣的LLM应用生态。
本文来自作者[shyfzc]投稿,不代表艺帆号立场,如若转载,请注明出处:https://vip.shyfzc.com/zixue/202412-25294.html
评论列表(4条)
我是艺帆号的签约作者“shyfzc”!
希望本篇文章《DeepSeek技术突破引发行业震动 英伟达在AI领域的地位面临挑战 (deepseek官网)》能对你有所帮助!
本站[艺帆号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:在分析DeepSeekv3的本文时,我们首先要认识到其背后的发展逻辑,DeepSeekv3作为后发模型,具有避免前人错误的优势,能够在巨人的肩膀上进行更高效的研究和开发,这意味...