(来源:中航证券研究)
核心观点
? 国产科技创新,DeepSeeK树立AI性价比标杆
2025年1月20日,幻方发布国产推理模型DeepSeek-R1,在仅有极少标注数据的情况下,极大提升了模型推理能力。通过 DeepSeek-R1 的输出,蒸馏出32B和70B参数级别模型在数学、代码、自然语言推理等任务对标OpenAI o1-mini的效果。性能对标头部模型的同时,DeepSeek-R1的服务定价为每百万tokens输入1元/输出16元,较o1-mini的价格(输入11元/输出88元)大幅降低。
? 开辟模型降本新路径,端侧AI普惠化可期?
DeepSeeK在基础模型训练和推理模型训练均有创新,有效克服了推高模型成本的FP8训练精度不足、高质量数据匮乏等困难,极大降低了训练和推理成本。DeepSeeK的研究还表明,较大的基础模型发现的推理模式对于提高较小模型的推理能力至关重要。在大模型蒸馏技术的加持下,端侧小模型的普惠化指日可待。
? 全球科技巨头认可,重塑中国科技估值
全球科技公司都在探寻DeepSeeK可能带来的商机。美国科技巨头英伟达NIM,微软Azure,亚马逊AWS等智能云平台已上线部署支持用户访问DeepSeek-R1模型。我们认为,DeepSeeK以创新的技术路线吸引了全球科技巨头,说明国产科技在开放创新的开源环境里具备强大的竞争力,有望涌现出更多的普适技术,我国本土科技企业的价值理应被重估。
??建议关注
模型使用成本降低,AI应用程序会越来越多,竞争将更加激烈,作为开发工具的PaaS服务的护城河更高。借助DeepSeeK引发的全球效应,我国本土科技公司的价值有望获得更高关注度。
建议积极布局AI工具,及端侧AI环节:
1)AI服务:腾讯(港股)、阿里巴巴(港股)、金山云(港股)、第四范式(港股);
2)AI应用软件:、、;
3)端侧AI:、、、。
? 风险提示:
AI技术发展不及预期、AI在应用端的表现不及预期、AI受政策法规限制的风险、地缘政治的风险
一、国产科技创新,DeepSeeK树立AI性价比标杆
2025年1月20日,幻方发布国产推理模型DeepSeek-R1,在仅有极少标注数据的情况下,极大提升了模型推理能力。通过 DeepSeek-R1 的输出,蒸馏出32B和70B参数级别模型在数学、代码、自然语言推理等任务对标OpenAI o1-mini的效果。
性能对标头部模型的同时,DeepSeek-R1的服务定价为每百万tokens输入1元/输出16元,较o1-mini的价格(输入11元/输出88元)大幅降低。
DeepSeek是中国科技从追赶迈向创新的一大步,中国科技资产或将迎来一轮全面价值重估。作为国产大模型,DeepSeek获得了国际范围的广泛认可,在安卓和苹果的应用商店获得了大量用户,用户下载量位居前列。DeepSeek为业界开辟了大模型降本的示范路径,将加速AI模型在硬件终端的渗透速度,并且获得了海外科技巨头的认可,说明中国科技创新能够在最前沿的科技浪潮中发挥全球影响力。
1.1 降本源自创新
构建强大的AI推理能力一直面临着一个根本性的挑战:获取高质量的训练数据。DeepSeek-R1开辟了“以智养智”方案来自动化获取数据,缓解了数据短缺的影响。R1的训练架构为,在DeepSeek-V3 基础模型之上,先利用少量高质量的“冷启动”(Cold Start) 数据进行强化学习(RL)、拒绝抽样(Rejection Sampling)、数据微调(SFT),形成高质量数据集;接着用生成的高质量数据训练DeepSeek-V3,重复以上步骤得到收敛的R1模型。这个方案的创新在于充分利用了推理任务的一个独特性质:答案的正确性往往可以通过程序自动验证。自动化的验证机制为强化学习提供了清晰的奖励信号,从而使模型能在较少人工标注的情况下不断改进,降低了模型对庞大高质量数据的要求。
R1模型的简洁训练路径和低成本,还与V3基础模型的训练经验积累存在非常大的关系。DeepSeek-V3是幻方于2024年12月26日发布的通用大模型,其大小和性能对齐海外领军闭源模型,但价格远低于同行。
从历史上看,F(xiàn)P8并未被广泛用于训练,因为梯度(在反向传播期间更新模型权重至关重要)在以如此低精度格式表示时通常无法收敛。DeepSeek-v3 通过引入一些细粒度量化技术(例如逐块和逐块缩放)克服了这一挑战,在极大型模型上首次大规模实现FP8混合精度训练,并且持续优化模型架构,所以模型训练成本仅557.6万美元,总共使用了278.8万H800 GPU Hours。相较之下,Meta的Llama 3 系列模型的计算预算则多达3930万H100 GPU Hours。
1.2 蒸馏小模型表现出色,端侧AI普惠化可期
DeepSeek团队证明,通过完善的工程和算法设计,即使在有限的硬件和资源下也能实现不错的 AI 性能。将较大模型的推理模式蒸馏为较小的模型,DeepSeeK获得了更好的性能。经过蒸馏的 14B 模型的表现远胜于先进的开源模型 QwQ-32B-Preview,而经过蒸馏的 32B 和 70B 模型在密集模型的推理基准上创下了新纪录。
蒸馏像“临摹大师画作”,直接复现效果,适用于批量部署;RL像“自己创作”,虽可能更好但费时费力,适用于做技术突破。使用 Qwen2.5-32B (Qwen, 2024b) 作为基础模型,DeepSeek-R1 的直接蒸馏(DeepSeek-R1-Distill-Qwen-32B)效果优于仅在其上应用 RL(DeepSeek-R1-Zero-Qwen-32B)。这表明,较大的基础模型发现的推理模式对于提高较小模型的推理能力至关重要。在大模型蒸馏技术的加持下,端侧小模型的普惠化指日可待。
1.3 全球科技巨头认可,重塑中国科技估值
科技巨头纷纷接入,探寻DeepSeeK新机遇。DeepSeek的技术路线有望整体降低AI技术的使用门槛,全球科技公司都在探寻其可能带来的商机。美国科技巨头英伟达NIM,微软Azure,亚马逊AWS等智能云平台已上线部署支持用户访问DeepSeek-R1模型。AMD宣布已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上。微软宣布推出针对NPU优化的 DeepSeek-R1(已在 Azure AI Foundry和GitHub上提供),首批将面向搭载高通骁龙X芯片的Copilot+ PC推出,随后是英特尔酷睿 Ultra 200V 等平台。AI编程工具Cursor、AI搜索引擎Perplexity等AI应用初创公司也上线了DeepSeeK服务。
我们认为,DeepSeeK的低成本基础模型和端侧模型让全球认识到,对于云服务商和应用开发商而言,价格或成选择模型供应商的重要因素。DeepSeeK以创新的技术路线吸引了全球科技巨头,说明国产科技在开放创新的开源环境里具备强大的竞争力,有望涌现出更多的普适技术,我国本土科技企业的价值理应被重估。
1.4 投资建议
模型使用成本降低,AI应用程序会越来越多,竞争将更加激烈,作为开发工具的PaaS服务的护城河更高。借助DeepSeeK引发的全球效应,我国本土科技公司的价值有望获得更高关注度。
建议积极布局AI工具,及端侧AI环节:
1)AI服务:腾讯(港股)、阿里巴巴(港股)、金山云(港股)、第四范式(港股);
2)AI应用软件:泛微网络、金山办公、顶点软件;
3)端侧AI:兆易创新、中兴通讯、瑞芯微、恒玄科技。
风险提示:AI技术发展不及预期、AI在应用端的表现不及预期、AI受政策法规限制的风险、地缘政治的风险
证券研究报告名称:《行业点评:DeepSeek冲击全球,国产科技待重估》
对外发布时间:2025年2月4日
中航科技电子团队介绍
首席:赵晓琨
十六年消费电子及通讯行业工作经验,曾在华为、阿里巴巴、摩托罗拉、富士康等多家国际级头部品牌终端企业,负责过研发、工程、供应链采购等多岗位工作。曾任职华为终端半导体芯片采购总监,阿里巴巴人工智能实验室供应链采购总监。长期专注于三大方向:1、半导体及硬科技;2、智慧汽车及;3、大势所趋的新能源。
分析师:刘牧野
约翰霍普金斯大学机械系硕士,2022年1月加入中航证券。拥有高端制造、硬科技领域的投研经验,从事科技、电子行业研究。
研究助理:刘一楠 ?
西南财经大学金融硕士,2022年7月加入中航证券,覆盖半导体设备、半导体材料板块。
转载请注明来自石家庄天鲲化工设备有限公司 ,本文标题:《【中航科技电子】DeepSeek冲击全球,国产科技待重估》
还没有评论,来说两句吧...