《B站欧美大片视频入口揭秘:如何精准定位你的观影盛宴?》
0
2026-01-22
1月21日后,正值deepseek-r1模型发布一周年(2025年1月),deepseek再次引起业界关注——全新模型“model 1”巨然特身,同时,新一代旗舵ai模型v4也正式发布。
一、MODEL1亮相DeepSeek官方GitHub仓库
北京时间1月21日,DeepSeek官方GitHub仓库更新了一批FlashMLA相关代码。AI对全部114个代码文件(涵盖.py、.md、.txt、.sh、.cpp、.cu、.h等格式)进行深度扫描后,识别出此前从未公开的模型标识符“MODEL1”,该名称在代码中出现了31次。
FlashMLA是DeepSeek自主研发的底层加速框架,专为Hopper的深度调优GPU架构而设计。
其核心基于多层注意力机制(MLA),这项技术已成为DeepSeek系列模型(如V2、V3)的关键支柱,能够实现高吞吐量和低周转率,并能显著压缩模型的层结构,充分释放GPU硬件的潜力。MODEL1是FlashMLA目前支持的两大主要模型架构之一,另一个是DeepSeek-V3.2。结合其独特的推理逻辑代码和配置,MODEL1很可能成为一种轻量级的高效场景推理架构:与V3.2相比,它具有更低的内存消耗,更适合部署在边缘设备或对成本高度敏感的应用环境中;同时,它可能只有16K长的任务序列设计、强化文档分析、代码理解等长上下文建模能力。
值得注意的是,MODEL1的硬件适配涵盖多种GPU架构:在英伟达H100/H200(SM90架构)上,分别提供model1_persistent_h64.cu(64头)和model1_persistent_h128.cu(128头)两个内核版本;在新发布的B200(SM100架构)上,它配备了专属的Head64实现,SM100平台上的Head128内核仅兼容MODEL1,不能使用V3.2。这一差异也得到了业界的进一步证实——DeepSeek是MODEL1的核心,该系统在模型构建方面投入巨大,并全面支持英伟达的下一个计算平台。
目前,DeepSeek已形成两条清晰的技术发展路线:一条是以“全能型球体”为代表的V系列,专注于通用能力和综合表现;另一条是以“深度推理专家”为核心的R系列,专注于数学推理、逻辑分析等高阶认知任务。