小米小爱同学：资源受限下，实现端侧大模型的高性能推理-沐石林科技

在端侧大模型的工程化落地过程中，小米小爱同学端侧AI负责人杨永杰团队面临的核心挑战源于设备资源限制与模型快速迭代之间的矛盾。受限于算力、内存和功耗，端侧难以部署大规模模型，低比特量化虽能压缩模型体积，却带来性能损失；同时，模型更新机制滞后于云端，导致技术积累多于实际应用。为此，团队自研推理框架，通过动态输入支持、投机推理优化、指令级加速等系统级手段，在仅180 tokens/s的实时推理速度下实现高效运行，并结合量化策略与跨芯片兼容设计，显著提升资源利用率与部署灵活性。该框架不仅适配多样化的端侧硬件，还通过模块化架构实现软硬件协同优化，为大模型在手机、车载等场景的落地奠定基础。面对多业务并发与资源紧张的现实，团队创新采用“共享基座模型 + LoRA插件化”的轻量复用架构，使多个任务共用同一基础模型，仅加载对应业务的微调参数即可切换功能，极大节省内存占用并提升扩展性。在性能优化上，优先组合低比特量化、并行解码、prompt缓存等技术，确保可复用性与系统简洁性，避免因特定业务绑定而增加复杂度。展望未来，杨永杰指出突破关键在于两大方向：一是面向大模型优化的专用端侧芯片逐步成熟，将释放硬件潜力；二是模型架构的演进，如线性注意力（Linear Attention）类结构有望解决长上下文带来的内存瓶颈，尤其适用于多模态输入日益增长的场景。这两者共同推动端侧大模型从技术探索迈向规模化商用。

博客 - 正文

小米小爱同学：资源受限下，实现端侧大模型的高性能推理

文章分类

产品分类

数据驱动未来

开发者

关于我们

法律法规

快速入口

博 客 - 正文