多模态模型如何架构选型?从 UNet 到 DiT+AR,智象未来潘滢炜:今年要触达物理世界的构建
智象未来作为一家专注于视觉多模态生成式人工智能的初创企业,自2023年成立以来,依托创始人梅涛博士在学术与工业界的深厚积累,持续推动多模态大模型的技术演进。公司从早期基于UNet架构的扩散模型起步,快速迭代至采用DiT架构的2.0版本,并于2024年下半年推出融合扩散与自回归机制的3.0版本——扩散自回归模型,实现了图像和视频生成质量、推理效率与运镜表现的全面提升。其自主研发的HiDream-I1模型在国际权威榜单中登顶,成为首个跻身全球第一梯队的中国自研生成式AI模型,展现了强大的技术突破能力。团队始终坚持用户驱动的研发理念,以真实场景反馈为导向,将技术攻关聚焦于“用户最后一公里”的可用性提升,而非单纯追求论文产出或指标领先。
面对激烈的市场竞争格局,智象未来凭借扎实的技术积累、快速响应行业变化的能力以及清晰的商业化路径,在众多玩家中脱颖而出。公司不仅具备国内首批通过双备案的多模态生成模型资质,更构建了覆盖图像视频创作、内容编辑与二创平台的完整应用生态,并与彩讯股份、慈文传媒、寒武纪等多家上市公司展开深度合作,拓展在影视、文化、企业服务等领域的落地场景。在基础设施适配方面,团队积极布局国产算力支持,通过系统化调优实现性能与成本的平衡。展望2025年,智象未来的竞争力在于持续的技术创新、对物理世界建模的前瞻探索,以及在多模态理解与生成之间建立协同闭环的能力,真正以技术广度和深度服务于全球用户,致力于在激烈竞争中稳固“牌桌”位置,推动生成式AI向更智能、更真实、更普惠的方向发展。

皖ICP备2023013201号-2
皖公网安备34019202002029号