近期,混元团队推出的开源高效图像生成项目受到了极大的关注。该项目不仅显著提高了文本转图像任务的效率与性能,而且在多个方面表现出卓越的表现,训练所需时间也大幅减少,确实让人充满期待。
混合采样策略革新
混元团队开发的图像生成框架,其关键在于融合了随机微分方程(SDE)与常微分方程(ODE)的混合采样技术。以往的方法,如Flow – GRPO,它们在采样环引入了随机性,且在整个去噪流程中进行优化,导致训练过程极为缓慢。新框架独特地将采样步骤划分为两个阶段,在特定的时间范围内采用SDE进行采样以保持其探索性,而在时间窗口之外则采用ODE进行采样以增强结果的确定性。
性能显著提升
该框架在多个与人类偏好对齐的维度上均实现了显著进步。无论是单一奖励还是复合奖励,无论是在奖励区域内部还是外部,都实现了最佳的表现。在特定的策略中,指数衰减和恒定调度均被证明是最优的调度方式。通过对比HPS – v2.1在作为奖励模型时的可视化效果,可以清晰地观察到它在语义和美学两个层面上的出色表现。
优化MDP流程
这种混合采样机制使得马尔可夫决策过程(MDP)的优化变得更加简便。在此新框架中,原本繁杂的优化步骤变得高效,计算成本显著减少。这种改进不仅停留在理论层面,在具体训练实践中,我们也能明显体会到训练速度的提升,以及资源分配的更加合理。
Flash变体加速
团队还提出了Flash的变体,该变体通过采用高级的常微分方程求解器,例如DPM ++,来提升采样速度。Flash这一变体在维持相似性能的前提下,将训练所需时间减少了71%。这一显著提升主要归功于对常微分方程部分的加速优化,例如通过采用二阶中点法来减少采样步数,从而达到了计算成本与性能之间的理想平衡。
模型特性丰富
目前,团队已经推出了基于FLUX.1 Dev架构的模型版本,这些版本经过了相关训练。这些模型能够支持多种奖励模型的联合训练,包括HPSv2和Pick Score等。同时,它们也兼容了主流的扩散采样流程,并能够支持从ODE到SDE模式的切换,这在推理阶段提供了灵活的配置选项。
应用场景广泛
该模型适用于众多实际应用,既能在图文生成方面产出高品质内容,为创作者带来更佳的辅助工具,又能在AIGC内容审核与优化中发挥作用,提升审核的效率和精确度;同时,它还能帮助实现个性化创作,满足各类用户在创作上的多样化需求。
你认为这项具有创新性的图像生成计划将对AIGC行业产生何种影响?敬请点赞、转发本篇文章,并留下你的见解进行交流!