在近期的AI领域,一款国产开源大模型DeepSeek-V3引起了广泛关注。这款由国内AI公司DeepSeek(深度求索)研发的模型,在资源受限的情况下,展现了其研究和工程能力的一次显著进步。
AI领域的知名专家和学者对DeepSeek-V3的评价极高。例如,OpenAI的创始成员安德烈·卡帕西(Andrej Karpathy)表示,他会仔细阅读介绍DeepSeek-V3的技术本文,并认为这是一篇非常棒的本文。阿里前副总裁贾扬清、MetaAI科学家田渊栋、英伟达高级研究科学家Jim Fan等多位AI领域的大牛也对这款模型给予了高度评价。
DeepSeek-V3的性能在多个主流评测基准上表现出色,特别是在代码和数学方面,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。在知识能力方面,DeepSeek-V3在MMLU-Pro和GPQA-Diamond等基准测试中超越了阿里、Meta等所有开源模型,并领先GPT-4o,仅次于Claude-3.5-Sonnet。在数学、代码和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多个基准测试中,不仅碾压了阿里和Meta的最新开源模型,同时也超越了GPT-4o和Claude-3.5-Sonnet。
DeepSeek-V3是一款自研的MoE(混合专家架构)模型,参数规模从前代的2360亿提升到6710亿,在14.8Ttokens上进行了预训练,上下文长度为128K。这一成就表明,开源模型完全有可能缩小与闭源模型之间的差距,并且有可能实现超越。
DeepSeek-V3的训练成本仅为557.6万美元,远低于OpenAI、Meta等公司的模型训练成本。这一成本优势使得DeepSeek-V3在AI领域更具吸引力。该模型在2048块H800组成的GPU集群上训练了3.7天,预训练耗时不到两个月,完整训练仅用了278.8万GPU小时。这一成本仅包括DeepSeek-V3的官方训练,不包括先前与架构、算法或数据的有关研究和消融实验相关成本。
安德烈·卡帕西用“玩笑般的预算”来形容DeepSeek-V3的训练成本,并将其与Llama-3-405B的训练成本进行了对比。Llama-3-405B是在近1.64万块H100GPU集群上训练,预训练时间为54天,耗时超过2118万GPU小时,成本超过5460万美元。而DeepSeek-V3用了不到280万个GPU小时,这意味着计算量仅有Llama-3-405B的1/11。
DeepSeek-V3的出圈不仅仅是因为它的性能,更因为它在成本控制上的优势。这款模型的成功展示了开源模型在资源受限的情况下,依然能够实现与闭源模型相媲美的性能,这对于推动人工智能技术的普及和发展具有重要意义。
本文来自作者[shyfzc]投稿,不代表艺帆号立场,如若转载,请注明出处:https://vip.shyfzc.com/zixue/202501-29071.html
评论列表(4条)
我是艺帆号的签约作者“shyfzc”!
希望本篇文章《揭秘拼多多AI新贵 备受瞩目的技术黑马如何手握万卡重塑大模型界 (揭秘拼多多砍一刀骗局)》能对你有所帮助!
本站[艺帆号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:在近期的AI领域,一款国产开源大模型DeepSeek,V3引起了广泛关注,这款由国内AI公司DeepSeek,深度求索,研发的模型,在资源受限的情况下,展现了其研究和工程能力的...