微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算
作者:灵犀软件园时间:2025-04-19 13:08:11
本站 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。
本站援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅 0.4GB,远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。
BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值,采用定制 BitLinear 层,将权重限制为-1、0、+1 三种状态,形成三值系统,每权重仅需约 1.58 位信息存储。
此外,层间激活值以 8 位整数量化,形成 W1.58A8 配置。微软还调整了 Transformer 架构,引入平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化,确保低位训练稳定性。技术报告称,这种原生 1 位训练避免了传统后训练量化(PTQ)带来的性能损失。
BitNet b1.58 2B4T 的开发历经三阶段:首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如 WizardLM Evol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升对话能力和安全性。
微软测试显示,该模型在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流 1B-2B 参数全精度模型,同时在能耗(每 token 0.028 焦耳)和 CPU 解码延迟(29 毫秒)上占据显著优势。
尽管 BitNet 潜力巨大,但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。
微软还计划优化 GPU 和 NPU 支持,延长上下文窗口至 4096 token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布,供社区测试与应用。
参考
BitNet b1.58 2B4T Technical Report
hugging face 模型页面
相关文章
-
微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算
本站 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1 58 2B4T,区别于传统训练后量化的方式
-
央视曝光不法分子利用无人机指挥科目二考生作弊,协助舞弊者被判有期徒刑 8 个月
本站 4 月 18 日消息,据央视网报道,近期甘肃兰州破获一起利用无人机指挥科目二考生作弊案,犯罪嫌疑人李某犯组织考试作弊罪,被判处有期徒刑8个月,并处罚金3000元。据悉,考生杨某在进行科目二考试时
-
iOS 版微软 Word 新功能:AI 转录语音笔记,快速转换文档 / 笔记 / 邮件
本站 4 月 18 日消息,微软公司昨日(4 月 17 日)发布博文,宣布为 iOS 版 Word 推出一项实用更新,支持自动结构化、格式化语音笔记,快速转化为文档、邮件等内容。微软在博文中表示,在移
-
Discord 在美新泽西州因“涉嫌违反儿童安全法”被起诉:未满 13 周岁孩童可编造生日创建新账号
本站 4 月 18 日消息,据外媒The Verge报道,近期美国新泽西州对 Discord 提起诉讼,指控该公司进行“欺骗性和不合理的商业行为”,导致儿童面临风险。本站从报道中获悉,相应诉状声称 D
-
-
微软已修复、用户请更新:Win10 / Win11 NTLM 漏洞肆虐,低交互高风险、可提权窃取敏感数据
本站 4 月 18 日消息,科技媒体 bleepingcomputer 昨日(4 月 17 日)发布博文,报道称已有证据表明,黑客利用 Windows 漏洞(CVE-2025-24054),在网络钓鱼