DeepSeek新动态：MODEL1曝光与V4发布在即

圆圆 0 2026-01-22 19:32:18

1月21日后，正值deepseek-r1模型发布一周年（2025年1月），deepseek再次引起业界关注——全新模型“model 1”巨然特身，同时，新一代旗舵ai模型v4也正式发布。

一、MODEL1亮相DeepSeek官方GitHub仓库

北京时间1月21日，DeepSeek官方GitHub仓库更新了一批FlashMLA相关代码。AI对全部114个代码文件（涵盖.py、.md、.txt、.sh、.cpp、.cu、.h等格式）进行深度扫描后，识别出此前从未公开的模型标识符“MODEL1”，该名称在代码中出现了31次。

FlashMLA是DeepSeek自主研发的底层加速框架，专为Hopper的深度调优GPU架构而设计。

其核心基于多层注意力机制（MLA），这项技术已成为DeepSeek系列模型（如V2、V3）的关键支柱，能够实现高吞吐量和低周转率，并能显著压缩模型的层结构，充分释放GPU硬件的潜力。

MODEL1是FlashMLA目前支持的两大主要模型架构之一，另一个是DeepSeek-V3.2。结合其独特的推理逻辑代码和配置，MODEL1很可能成为一种轻量级的高效场景推理架构：与V3.2相比，它具有更低的内存消耗，更适合部署在边缘设备或对成本高度敏感的应用环境中；同时，它可能只有16K长的任务序列设计、强化文档分析、代码理解等长上下文建模能力。

值得注意的是，MODEL1的硬件适配涵盖多种GPU架构：在英伟达H100/H200（SM90架构）上，分别提供model1_persistent_h64.cu（64头）和model1_persistent_h128.cu（128头）两个内核版本；在新发布的B200（SM100架构）上，它配备了专属的Head64实现，SM100平台上的Head128内核仅兼容MODEL1，不能使用V3.2。这一差异也得到了业界的进一步证实——DeepSeek是MODEL1的核心，该系统在模型构建方面投入巨大，并全面支持英伟达的下一个计算平台。

目前，DeepSeek已形成两条清晰的技术发展路线：一条是以“全能型球体”为代表的V系列，专注于通用能力和综合表现；另一条是以“深度推理专家”为核心的R系列，专注于数学推理、逻辑分析等高阶认知任务。

标签：DeepSeek新动

DeepSeek新动态：MODEL1曝光与V4发布在即

《B站欧美大片视频入口揭秘：如何精准定位你的观影盛宴？》

DeepSeek新动态：MODEL1曝光与V4发布在即

三星、LG OLED电视获美国杂志“最佳电视”殊荣