2026年单步生成模型训练新方向:漂移模型怎么样?

  • 时间:
  • 浏览:88
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

单步生成模型面临后训练困境

在过去的一年时间当中, 单步文生图模型依靠极其迅敏的推理速度备受业界瞩目, 然而在此之后其训练方式却碰到了以前从来根本没有过的阻碍。去噪的轨迹以及策略似然身为传统偏好进行优化之时起着关键作用的信号, 在新一代的模型里不容易获取到, 导致诸多经典的算法不能够直接拿来套用。处于行业之中进行观察的人士表明, 这样的一种矛盾正反过来迫使研究者去探寻不需要依赖轨迹的全新的优化模式样子。

2026 年 6 月 21 日, 西湖大学跟香港中文大学(深圳)的联合研究团队明确发布了 DrPO 技术, 该技术针对单步模型后训练给予了突破性的方案, 这项技术凭借引入漂移场的概念, 于特征空间里直接引导生成分布去逼近真实数据分布, 完全绕开了对去噪信号的依赖。

漂移场绕过传统依赖

研究团队于技术报告里阐表, 漂移场实际上是当下生成分布朝着真实数据分布靠近的更新方向向量。跟传统方法需完整反向传播不一样, DrPO只需于特征空间内估量局部漂移, 借由有限样本便能达成方向推算。此一思路把强化学习里的偏好优化从轨迹依赖中解脱出来。

具体的实现情形里面, 真实的数据样本被标记成了正样本, 当下的模型生成样本用作负样本, 这两者一块儿构成了漂移估计的基础。团队的负责人表明, 此种方法并非需要显式地去建模完整的数据分布, 而是借助局部相似度计算来驱动全局优化。

高分吸引低分排斥机制

把高分图像样本产生吸引力, 低分样本施加排斥力, 构建特征空间中的双向力场, 作为DrPO的核心机制, 这种动态平衡结合参考模型约束, 共同决定模型参数的更新方向, 研究数据表明, 该方法在保持单步推理效率之时, 显著提升了图像质量。

实验的某一环节期间, 那个由多人组成的小组运用Qwen 3 - VL针对所生成的图像展开多面向去评估, 有着语义忠实与否这个方面, 还有整体连贯这块儿, 再者是图像有无瑕疵的情形, 以及审美质量如何, 这些角度都涵盖在内。最终得出的结果表明, DrPO于完成指令的跟从以及视觉稳定性这两个方面, 都远超现下已有的方法, 特别是在面对复杂提示词的场景当中, 展现相当显著的优势。

大型奖励模型训练提速3.51倍

于性能测试里, DrPO呈现出令人惊叹的计算效率优势, 那种状况为何会出现。当目标奖励运用基于多模态大模型的HPSv3时, DrPO相较于需要反传奖励梯度的DRaFT方法, 训练速度提高了3.51倍。而这一提升是因为漂移回归完全于特征空间得以完成, 成功避开大型奖励模型的梯度计算。

需留意的是, DrPO还能够被应用于不可微奖励模型的微调。研究团队在GenEval评测集上开展子任务测试, 发觉即便奖励信号是规则或者程序化的打分, 此方法仍然能够使得模型性能得以稳定提升。这极大地扩充了可被应用的奖励模型类型。

在线策略采样构造偏好对

训练步里, DrPO借着在线策略采样机制, 来产生候选图像靠的是当前模型, 之后依据目标奖励, 针对在同一提示词那里的图像去打分排序。高分以及低分样本不是预先就给定下来的那种方式, 而是在策略采样完成后才实现动态构造的, 其目的在于保证漂移方向在任何时候都能够反映出当前模型分布所具备的特征。

团队针对SD-Turbo以及SDXL-Turbo展开在线微调验证, 训练提示词源自Pick-a-Pic v2数据集。于两个评测集合当中, 和多种单步生成对照方法相比, DrPO取得了更高的胜率, 以此证实其漂移方向构造策略具备有效性。

离线版本有待改进

研究团队同时进行了离线版本的尝试, 也就是直接运用现有偏好数据集中的图像对来构造漂移场。然而, 通过实验发现, 离线数据集中的图像对常常偏离当前模型的分布, 这致使所估计出的漂移场较为粗糙, 并且整体性能比不上在线版本。

通过消融实验能够表明, 增添候选样本数量能够显著地提升结果。然而, DrPO对于核函数选择的敏感度是较为低的。参考项在对模型偏离基础分布予以限制这方面施展着关键作用, 进而保证了微调过程的稳定性。团队给出建议, 在条件允许的情况下优先采用在线策略。

就这种不用进行去噪轨迹的偏好优化办法而言, 您觉得它有没有可能成为将来单步生成模型的标准训练模式呢? 欢迎在评论区域分享您的观点, 点赞并且转发给更多留意AI技术发展的友人。

猜你喜欢

2026年谷歌AI搜索翻车?推荐竞品DuckDuckGo,用户评价两极分化

AI等特定短语时,AI概览竟主动推荐竞争对手DuckDuckGo的无AI搜索页面,并提示用户可通过调整浏览器设置降低AI体验强度,引导用户直接前往DuckDuckGo。然而,激进的产品变革也引发了用户的明显分化:大量用户仍倾向于获取干净、传统的链接列表,而非被强制灌输AI生成内容。

2026-06-22

2026最新推荐:Top5数据集评价,哪个好?

整个数据集通过统一的四阶段流水线生产:规模上的实验设计使得数据贡献和算法贡献可以独立评估:模型超越顶级旗舰模型训练没有带来负迁移。上均有小幅提升,两个规模的模型趋势一致。更值得关注的是迁移效果。学到的信息整合能力能迁移到训练中没见过的任务上。数据集、模型和训练与评测代码已完整开源。

2026-06-22

2026年Meta内部动荡:AI重组遭员工怒批,评价如何?

重组工作给出的自我评价。《连线》报道,多名员工表示,公司近期的大规模裁员已经让工作量陡增,根本抽不出时间参加这类「额外活动」。矛盾最戏剧性的一次爆发,发生在一场面向数千名员工的内部直播上。团队内部普遍存在不满情绪,有把这种处境比作劳改营式的生活。但他承诺,今年不会再进行大规模裁员。

2026-06-22

2026年单步生成模型训练新方向:漂移模型怎么样?

那么,能不能用类似的漂移目标,来做单步生成模型的偏好后训练?Optimization(DrPO),把漂移场用于单步文生图模型的偏好后训练。构造出的漂移方向是否能稳定改善单步文生图模型。将漂移模型中的漂移场估计引入单步文生图模型的强化学习后训练。

2026-06-22

2026年6月22日,这匹AI新潮流黑马缅因猫怎么样?

一觉醒来,AI的新潮流变成了养猫火速围观一下,刚刚全球流式音视频模型赛道闯进了一匹黑马,能力SOTA级,模型名字就叫缅因猫(MaineCoon)而这些,来自一家base中国的10人初创团队,名叫Catnip(猫薄荷)但即便在水下,这支团队也已经被最具洞察的投资人抢着押注。

2026-06-22