飞桨高性能推理升级：大语言模型及多模态大模型部署加速-沐石林科技

飞桨框架3.0在大模型推理部署领域实现全面升级，聚焦于提升性能、优化效率与跨硬件兼容性。其核心在于基于高扩展性的中间表示（PIR）和灵活的PASS机制，构建了新一代推理引擎，显著增强模型部署的灵活性与运行效率。在量化压缩方面，推出针对大语言模型的无损量化方案——分段激活平滑（PSS）算法，有效解决激活数值分布不均导致的量化损失问题，支持INT8、FP8、INT4等多种精度组合，在保持模型精度接近浮点水平的同时大幅降低内存占用与计算开销。同时，通过引入权重仅量化（Weight Only）、KV Cache量化、FlashDecoding及PageAttention等前沿优化技术，实现了对Llama 3.1 405B等超大规模模型的高效推理支持，并结合动态图一键转静功能，简化开发流程，助力用户快速完成从训练到部署的全链路打通。在服务化部署层面，飞桨构建了面向服务器场景的高性能推理架构，依托FastDeploy实现流式输出、异步调度与连续批处理能力，优化Prefill与Decode阶段的混合调度策略，显著降低首Token延迟，提升系统吞吐量与用户体验。此外，飞桨全面拓展多硬件生态支持，覆盖英伟达GPU、昆仑XPU、昇腾NPU、海光DCU、燧原GCU及英特尔CPU等多种主流平台，通过统一接口适配不同芯片特性，实现算子融合、内存优化与性能精调，确保在各类硬件上均能发挥出色推理表现。在多模态领域，通过对DiT扩散模型进行深度图优化，如归一化融合、矩阵横向融合与公共子表达式折叠，使推理速度提升6倍，性能超越主流框架。整体来看，飞桨框架3.0以技术创新驱动产业落地，为开发者提供端到端的大模型训推一体化解决方案。

博客 - 正文

飞桨高性能推理升级：大语言模型及多模态大模型部署加速

文章分类

产品分类

数据驱动未来

开发者

关于我们

法律法规

快速入口

博 客 - 正文