表示,当下,大家在在评估现有模型方面很在行,但在评估即将构建的新模型方面却差得多,尤其是当这些模型跨入新的能力范畴时。大多数基准测试、安全评估和红队测试协议,都暗含了一个假设:下一代模型只是当前模型的更强版本。每当出现一种新能力,而没有基准测试覆盖时,我们只能事后匆忙构建评估方法。
2026-05-20