2026年6月,视频生成模型推理一致性怎么样?

  • 时间:
  • 浏览:172
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

世界模型之殇:视频生成只是“照本宣科”?

将AI生成一辆汽车于雪地之中出现打滑状况的视频时, 它切实明白物理惯性吗。越来越多的证据已然显示, 当下处于最先进水平的视频模型像是Veo-3.1以及Sora-2, 尽管能够生成十分逼真的画面, 然而在帧与帧之间的因果推理方面却常常出现问题。一个名为MME-CoF-Pro的权威基准刚刚问世发布, 第一步系统性展示了这些模型的“推理一致性”不足之处。

推理一致性:视频连贯性的核心挑战

我们把这一维度正式定义成“推理一致性”, 也就是生成视频里的各个事件能不能于帧与帧之间维持因果一致、可信的进程。传统的评测常常仅看最后那一帧的结果正误, 或者看单一物理现象是否合乎情理, 然而从来没有描绘出模型在推理链条方面的连贯性。这次 MME - CoF - Pro 的推出, 其目的恰恰就是为了填补这一空白。

从定性到定量:过程级指标登场

在此之前, MME - CoF的研究涵盖了12个维度, 不过仅仅是粗粒度的定性评估。如今, 被ECCV 2026接收的MME - CoF - Pro进行了全面升级, 其类别从12个扩展至16个, 并且首次引入了人工校验的“过程级”Reasoning Score。这一指标并非再是那种非黑即白的“答对/答错”情况, 而是能够精准定位模型在推理链的哪一步出现崩塌。

评测样本:303个精心策划的推理任务

MME - CoF - Pro总共含有303个图像 - 文字 - 视频推理样本, 其中涉及370张图像, 覆盖了16个推理类别。这些样本是从27个现有的真实和合成基准里筛选构建而成的, 并且经过了三轮人工校验。16个类别被组织成四大能力组, 从底层感知开始逐步递进到高层任务推理, 以此确保评测具有全面性和深度。

推理引导:可控变量下的因果解码

MME - CoF - Pro把“推理引导”当作能够进行显式控制的变量, 这和以往工作最大的不一样之处在于, 通过对文字提示以及视觉提示的效果予以对比, 任何性能方面的差异都能够因果性地归源于引导自身, 这样的设计使得研究者能够分辨出模型究竟是实实在在理会世界, 还是单单在执行字面指令。

文字提示:提升推理分数,但代价高昂

不少模型在增添文字提示之后, 推理分数出现了提升, 这是实验所显示的情况。Veo - 3.1提升了4.5分, Sora - 2提升了7.6分, 而Cosmos - Predict2 - 14B同样提升了6.7分。可是, 代价却是7个模型的一致性分数几乎全都下降了, 特别是在4D Dynamics任务里, 所有模型的一致性分数下滑幅度在1.2至15.6分之间。模型常常会为了满足运动指令凭空“分裂”出多余物体。

视觉提示:精细任务上的双刃剑

在结构化、需空间引导的任务里头, 视觉提示有着较好的表现, 像Embodied和GUI任务这样的, 可当面对视觉细节、物体计数等精细任务时呢, 它却反倒让成绩降低了。Veo - 3.1在Visual Detail任务里, 推理分数下降了13.0, 一致性分数下降了14.4 , 作者进而推测, 这是源自训练数据偏差, 也就是模型常常会把箭头或者高亮这样的“引导”误以为是“内容”。

提示堆叠:并非通往强推理的捷径

存在这样一个自然的问题, 那就是, 持续不断地去增加提示方面的信息, 是否能够以单调的方式提升推理的表现? 其答案为否定的。经由实验能够表明, 文字以及视觉提示所带来的推理分数, 尽管在普遍意义上是高于没有提示的基线水平(0.23)的, 然而这两条曲线在各个阶段均呈现出剧烈的波动状态, 并不存在清晰的上升趋向。仅仅是简单地进行提示的堆叠, 根本无法确保推理表现能够得到提升, 这就引出了一个处于开放状态的问题, 即, 怎样才可以使模型把多步的提示稳定地落实为连贯的推理轨迹?

人类验证:Reasoning Score的有效性

为了验证可被称作Reasoning Score的这一事物的有效性, 十位标注者针对随机抽取出来的视频, 依据标注步骤去打分, 并且将其与现有的指标相互对比。给出的结果充分表明, Reasoning Score相比于现有的指标而言, 更具备能够捕捉处于人类视角之下的推理行为的能力, 是一种用于评估推理一致性的有效工具。它并非只是那种简单的“答对/答错”的判断方式, 而是能够精确地定位模型究竟是在推理链的哪一个步骤出现了崩塌。

未来方向:从“跟随”到“理解”

经过深思的核心结论是: 当下的视频生成模型更多的情况是在“跟随”提示, 并非是真正去“理解”然后落地世界规律。在朝着真正的世界模型推理前行的道路上, 更强的视觉对齐能力、指令理解能力以及抗幻觉机制, 仍然是必须要攻克的方向。作者期望这些分析得出的结果, 能够为视频生成模型以及世界模型的未来迭代提供具有价值的参考。更多的细节可以去访问www.fc-bowuguan.cn。

你觉得目前的AI视频模型最需要在哪个推理能力上突破?是物理规律理解,还是复杂指令的时序执行?欢迎在评论区分享你的观点,点赞并转发给更多关注AI未来的朋友!

猜你喜欢

2026年6月15-25万SUV推荐榜:零跑C16等国产车优缺点大PK

15万到25万这个区间,以前你只能买到CR-V、RAV4这类合资紧凑型SUV,而现在国产SUV已经卷到了一种不讲道理的程度,甚至连千伏平台,兆瓦闪充都能给你安排上。零跑的打法一直很简单——用越级的配置打价格差, C系列的三款SUV都取得了不错的市场反响,你觉得它们的销量还能更进一步吗?

2026-06-29

2026年6月,视频生成模型推理一致性怎么样?

Coherence):生成视频中的事件,能否在帧与帧之间保持因果一致、可信的演化。发现一:视频生成模型普遍不具备强推理能力,且推理能力与生成质量几乎完全解耦。作者希望这些分析结果,能为视频生成模型与世界模型的未来迭代提供有价值的参考。

2026-06-29

2026年6月大众出海榜单:中亚新局能否拯救在华下滑?

6月17日,在塔什干国际论坛期间,大众中国宣布了一则海外布局消息:大众、捷达落地乌兹别克斯坦。大众之所以果断深耕中亚市场,除了开拓新市场之外,还在于其在中国的现状。事实上,大众中国的出海布局,是国内合资品牌的缩影。e:HEV车型,打破“海外造车入华”的旧格局。

2026-06-29

2026年6月推荐:最有望重回QS前50的英国大学Top3评价

其实从概率来说,有些英国大学努努力,也是有机会回到QS前50的。今天我们聊下,最有希望重回QS前50的几所英国大学。对于这个flag,作为专业研究英国大学15年的老留学人来说,我是相信的。其实不用急,我个人觉得布里斯托是最有希望进qs前50的那个。就你要问,最容易进qs前50的英国大学是哪个?

2026-06-29

2026年6月,新加坡教育部长对本国教育的看法怎么样?

也就在近日,新加坡教育部长公开表示:教育不能沦为一场“军备竞赛”,让我们来听听部长对新加坡教育的看法是怎么样的。Tok总裁周受资,在美国国会舌战群儒的样子让很多孩子在新加坡上学的家长赞叹不已,也想让自己的孩子成为下一个“周受资”!去年当时的新加坡教育部长就已经发话,新加坡教育制度正在迎来一大波改革。

2026-06-28