小红书hi lab首次开源文本大模型，训练资源不到Qwen2.5 72B 的四分之一-沐石林科技

小红书 hi lab 于6月6日首次开源中等规模文本大模型 dots.llm1，采用 MIT 许可证并基于 decoder-only Transformer 架构，创新性地引入 MoE（混合专家）结构，实现140亿激活参数、1420亿总参数量，支持32K上下文长度。该模型在仅使用11.2万亿高质量真实数据（无合成数据）的前提下，达到与 Qwen2.5-72B 相当的性能水平。其训练过程依托自研的 Cybertron 框架，融合 Megatron-Core 并优化通信与计算重叠机制，显著降低算力消耗——预训练阶段每万亿 token 仅需13万 GPU 小时，整体耗时仅为 Qwen2.5 72B 的约四分之一，展现出极强的成本效益和可扩展性。通过三阶段数据处理流程与轻量级网页清理模型，hi lab 确保了数据质量与多样性，并利用 UtK 策略在不修改原始数据集的情况下，有效提升模型对长序列的理解能力。在后训练阶段，hi lab 构建了包含40万条指令样本的数据集，聚焦多语言对话、知识问答、复杂指令遵循及数学编码推理任务，采用两阶段微调策略结合拒绝采样与验证器系统，持续优化模型在专业领域的表现。测评结果显示，dots.llm1.inst 在中文语义理解、知识问答、数学推理等方面达到行业领先水平，尤其在 CLUEWSC 和 C-Eval 测试中超越多数主流模型，代码能力与 Qwen2.5 系列相当，但在部分前沿模型面前仍有提升空间。作为小红书 AI 战略的重要组成部分，hi lab 不仅致力于打造高性能模型，更推动“AI 人文训练师”团队建设，融合人文素养与技术能力，探索人际智能、空间智能等多元智能形态，目标是让人工智能真正成为人类自然且有益的伙伴。

博客 - 正文

小红书hi lab首次开源文本大模型，训练资源不到Qwen2.5 72B 的四分之一

文章分类

产品分类

数据驱动未来

开发者

关于我们

法律法规

快速入口

博 客 - 正文