DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶
作者:灵犀软件园时间:2025-03-26 10:17:08
感谢本站网友 华南吴彦祖、AMD超越未来 的线索投递!
本站 3 月 25 日消息,DeepSeek-V3 模型昨日进行了小版本更新,今晚官方发布了该更新的详情。
本站附全文内容如下:
DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,用户登录官方网页、App、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用方式保持不变。如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。
模型能力提升一览
推理任务表现提高
新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。
前端开发能力增强
在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。
中文写作升级
在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。
中文搜索能力优化
新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。
此外,新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。
模型开源
DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。V3-0324 模型权重下载请参考:
Model Scope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324
Huggingface:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
与 DeepSeek-R1 保持一致,此次我们的开源仓库(包括模型权重)统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
相关文章
-
首批获准开展路测:小马智行取得卢森堡 Robotaxi 测试许可
本站 4 月 3 日消息,小马智行今日宣布获得由卢森堡交通与公共工程部(Luxembourg s Ministry of Mobility and Public Works)颁发的 Robotaxi
-
任天堂解释 Switch 2 为何不继续用 OLED 屏幕而是回归 LCD:技术已取得许多进步
本站 4 月 3 日消息,任天堂 Switch 2 配备了一块 7 9 英寸的广色域 LCD 显示屏,支持 1920x1080 分辨率及 120Hz 刷新率,而且还支持 HDR10 和最高 120Hz
-
-
-
iOS 版 UU 加速棒计划与 Switch 2 同期发售
本站 4 月 3 日消息,网易 UU 加速器官方微博今日发文宣布,iOS 版 UU 加速棒计划与 Switch2 同期发售(安卓版已开售)。据介绍,网易 UU 加速棒适配大部分 Type-C 接口设备
-