小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一
小红书 hi lab 于6月6日首次开源中等规模文本大模型 dots.llm1,采用 MIT 许可证并基于 decoder-only Transformer 架构,创新性地引入 MoE(混合专家)结构,实现140亿激活参数、1420亿总参数量,支持32K上下文长度。该模型在仅使用11.2万亿高质量真实数据(无合成数据)的前提下,达到与 Qwen2.5-72B 相当的性能水平。其训练过程依托自研的 Cybertron 框架,融合 Megatron-Core 并优化通信与计算重叠机制,显著降低算力消耗——预训练阶段每万亿 token 仅需13万 GPU 小时,整体耗时仅为 Qwen2.5 72B 的约四分之一,展现出极强的成本效益和可扩展性。通过三阶段数据处理流程与轻量级网页清理模型,hi lab 确保了数据质量与多样性,并利用 UtK 策略在不修改原始数据集的情况下,有效提升模型对长序列的理解能力。
在后训练阶段,hi lab 构建了包含40万条指令样本的数据集,聚焦多语言对话、知识问答、复杂指令遵循及数学编码推理任务,采用两阶段微调策略结合拒绝采样与验证器系统,持续优化模型在专业领域的表现。测评结果显示,dots.llm1.inst 在中文语义理解、知识问答、数学推理等方面达到行业领先水平,尤其在 CLUEWSC 和 C-Eval 测试中超越多数主流模型,代码能力与 Qwen2.5 系列相当,但在部分前沿模型面前仍有提升空间。作为小红书 AI 战略的重要组成部分,hi lab 不仅致力于打造高性能模型,更推动“AI 人文训练师”团队建设,融合人文素养与技术能力,探索人际智能、空间智能等多元智能形态,目标是让人工智能真正成为人类自然且有益的伙伴。

皖ICP备2023013201号-2
皖公网安备34019202002029号