2026年单步生成模型训练新方向:漂移模型怎么样?
- 时间:
- 浏览:88
- 来源:南宁市武鸣区陆酷巴网络科技工作室
单步生成模型面临后训练困境
在过去的一年时间当中, 单步文生图模型依靠极其迅敏的推理速度备受业界瞩目, 然而在此之后其训练方式却碰到了以前从来根本没有过的阻碍。去噪的轨迹以及策略似然身为传统偏好进行优化之时起着关键作用的信号, 在新一代的模型里不容易获取到, 导致诸多经典的算法不能够直接拿来套用。处于行业之中进行观察的人士表明, 这样的一种矛盾正反过来迫使研究者去探寻不需要依赖轨迹的全新的优化模式样子。
2026 年 6 月 21 日, 西湖大学跟香港中文大学(深圳)的联合研究团队明确发布了 DrPO 技术, 该技术针对单步模型后训练给予了突破性的方案, 这项技术凭借引入漂移场的概念, 于特征空间里直接引导生成分布去逼近真实数据分布, 完全绕开了对去噪信号的依赖。
漂移场绕过传统依赖
研究团队于技术报告里阐表, 漂移场实际上是当下生成分布朝着真实数据分布靠近的更新方向向量。跟传统方法需完整反向传播不一样, DrPO只需于特征空间内估量局部漂移, 借由有限样本便能达成方向推算。此一思路把强化学习里的偏好优化从轨迹依赖中解脱出来。
具体的实现情形里面, 真实的数据样本被标记成了正样本, 当下的模型生成样本用作负样本, 这两者一块儿构成了漂移估计的基础。团队的负责人表明, 此种方法并非需要显式地去建模完整的数据分布, 而是借助局部相似度计算来驱动全局优化。
高分吸引低分排斥机制
把高分图像样本产生吸引力, 低分样本施加排斥力, 构建特征空间中的双向力场, 作为DrPO的核心机制, 这种动态平衡结合参考模型约束, 共同决定模型参数的更新方向, 研究数据表明, 该方法在保持单步推理效率之时, 显著提升了图像质量。
实验的某一环节期间, 那个由多人组成的小组运用Qwen 3 - VL针对所生成的图像展开多面向去评估, 有着语义忠实与否这个方面, 还有整体连贯这块儿, 再者是图像有无瑕疵的情形, 以及审美质量如何, 这些角度都涵盖在内。最终得出的结果表明, DrPO于完成指令的跟从以及视觉稳定性这两个方面, 都远超现下已有的方法, 特别是在面对复杂提示词的场景当中, 展现相当显著的优势。
大型奖励模型训练提速3.51倍
于性能测试里, DrPO呈现出令人惊叹的计算效率优势, 那种状况为何会出现。当目标奖励运用基于多模态大模型的HPSv3时, DrPO相较于需要反传奖励梯度的DRaFT方法, 训练速度提高了3.51倍。而这一提升是因为漂移回归完全于特征空间得以完成, 成功避开大型奖励模型的梯度计算。
需留意的是, DrPO还能够被应用于不可微奖励模型的微调。研究团队在GenEval评测集上开展子任务测试, 发觉即便奖励信号是规则或者程序化的打分, 此方法仍然能够使得模型性能得以稳定提升。这极大地扩充了可被应用的奖励模型类型。
在线策略采样构造偏好对
训练步里, DrPO借着在线策略采样机制, 来产生候选图像靠的是当前模型, 之后依据目标奖励, 针对在同一提示词那里的图像去打分排序。高分以及低分样本不是预先就给定下来的那种方式, 而是在策略采样完成后才实现动态构造的, 其目的在于保证漂移方向在任何时候都能够反映出当前模型分布所具备的特征。
团队针对SD-Turbo以及SDXL-Turbo展开在线微调验证, 训练提示词源自Pick-a-Pic v2数据集。于两个评测集合当中, 和多种单步生成对照方法相比, DrPO取得了更高的胜率, 以此证实其漂移方向构造策略具备有效性。
离线版本有待改进
研究团队同时进行了离线版本的尝试, 也就是直接运用现有偏好数据集中的图像对来构造漂移场。然而, 通过实验发现, 离线数据集中的图像对常常偏离当前模型的分布, 这致使所估计出的漂移场较为粗糙, 并且整体性能比不上在线版本。
通过消融实验能够表明, 增添候选样本数量能够显著地提升结果。然而, DrPO对于核函数选择的敏感度是较为低的。参考项在对模型偏离基础分布予以限制这方面施展着关键作用, 进而保证了微调过程的稳定性。团队给出建议, 在条件允许的情况下优先采用在线策略。
就这种不用进行去噪轨迹的偏好优化办法而言, 您觉得它有没有可能成为将来单步生成模型的标准训练模式呢? 欢迎在评论区域分享您的观点, 点赞并且转发给更多留意AI技术发展的友人。
猜你喜欢