那么,能不能用类似的漂移目标,来做单步生成模型的偏好后训练?Optimization(DrPO),把漂移场用于单步文生图模型的偏好后训练。构造出的漂移方向是否能稳定改善单步文生图模型。将漂移模型中的漂移场估计引入单步文生图模型的强化学习后训练。
2026-06-22