多模态模型如何架构选型？从 UNet 到 DiT+AR，智象未来潘滢炜：今年要触达物理世界的构建-沐石林科技

智象未来作为一家专注于视觉多模态生成式人工智能的初创企业，自2023年成立以来，依托创始人梅涛博士在学术与工业界的深厚积累，持续推动多模态大模型的技术演进。公司从早期基于UNet架构的扩散模型起步，快速迭代至采用DiT架构的2.0版本，并于2024年下半年推出融合扩散与自回归机制的3.0版本——扩散自回归模型，实现了图像和视频生成质量、推理效率与运镜表现的全面提升。其自主研发的HiDream-I1模型在国际权威榜单中登顶，成为首个跻身全球第一梯队的中国自研生成式AI模型，展现了强大的技术突破能力。团队始终坚持用户驱动的研发理念，以真实场景反馈为导向，将技术攻关聚焦于“用户最后一公里”的可用性提升，而非单纯追求论文产出或指标领先。面对激烈的市场竞争格局，智象未来凭借扎实的技术积累、快速响应行业变化的能力以及清晰的商业化路径，在众多玩家中脱颖而出。公司不仅具备国内首批通过双备案的多模态生成模型资质，更构建了覆盖图像视频创作、内容编辑与二创平台的完整应用生态，并与彩讯股份、慈文传媒、寒武纪等多家上市公司展开深度合作，拓展在影视、文化、企业服务等领域的落地场景。在基础设施适配方面，团队积极布局国产算力支持，通过系统化调优实现性能与成本的平衡。展望2025年，智象未来的竞争力在于持续的技术创新、对物理世界建模的前瞻探索，以及在多模态理解与生成之间建立协同闭环的能力，真正以技术广度和深度服务于全球用户，致力于在激烈竞争中稳固“牌桌”位置，推动生成式AI向更智能、更真实、更普惠的方向发展。

博客 - 正文

多模态模型如何架构选型？从 UNet 到 DiT+AR，智象未来潘滢炜：今年要触达物理世界的构建

文章分类

产品分类

数据驱动未来

开发者

关于我们

法律法规

快速入口

博 客 - 正文