2026年6月17日，AI Agent从聊天助手走向工作伙伴的现状

时间:2026-06-17 07:05:26
浏览:179
来源:南宁市武鸣区陆酷巴网络科技工作室

Agent安全迎来全新定义

2026年6月17日, 上海人工智能实验室正式发布了AgentDoG 1.5, 这一轻量化安全诊断框架切切实实地彻底改变了AI Agent的安全评估方式, 和传统仅仅关注内容安全的防护不一样, AgentDoG 1.5把安全判断从“最终回复”延伸到完整的执行过程, 当中涵盖用户请求、中间响应、工具调用、环境反馈等全链条节点。

三维诊断体系构建

风险来源精准定位

AgentDoG 1.5的核心创新之处在于, 其具备三维细粒度诊断机制, 该机制下, 模型并非仅仅输出“安全”或者“不安全”这种二元结果, 而是能够从Risk Source维度去识别风险的具体来源, 进而帮助开发者迅速明确问题发生的起始点。

失败模式与危害评估

聚焦于Agent的失败模式的是第二维度, 分析它怎样偏离预期行为。评估可能造成的现实危害的是第三维度, 以使安全判断拥有实际参考价值。AgentDoG 1.5在ATBench Family评测里展现出优异表现是因这一设计。

训练数据质量革命

三维数据引擎驱动

研发团队搭建起了taxonomy-guided data engine, 通过对系统进行建模, 明确风险入口、失败路径以及危害类型这几方面, 进而对数据生成过程加以控制。这种方法避开了传统大规模数据堆叠所存在的弊病, 仅仅运用28,705条高质量agentic safety trajectories与50,000条良性轨迹混合起来进行训练。

轻量化模型蒸馏

作为teacher模型利用GPT - 5.4, 为训练样本AgentDoG 1.5补充chain - of - thought推理过程 , 通过基于influence function的数据纯化, 将可靠的Agent安全判断能力蒸馏到较小规模模型中, 实现高效部署。

跨平台适配能力

应对Agent生态碎片化

当前, Agent系统涵盖通用tool-use agent、OpenClaw跨应用执行Agent、Codex代码仓库Agent等等多种类型, 这些类型当中的每一种, 各自会面临不一样的风险。而AgentDoG 1.5借助统一诊断框架, 防止因新平台出现, 然而为重新设计安全标签, 从而出现碎片化问题。

轻量化在线干预

那些实验得出的数据表明, 有那样一个框架, 它能够在同一时间去加载一万个环境, 还能够维护一千个处于活跃状态的实例, 并且它还支持一千个同时进行的工具调用操作, 其处于峰值时的内存被控制在二点五GB这个数值以下, 这一种性能使它适宜用作真实部署过程当中的在线护栏。

安全训练闭环构建

SFT与RL双管道

AgentDoG 1.5的训练流水线含有两个关键部分, 一部分是针对监督微调的高质量安全数据过滤, 另一部分是针对强化学习的轻量化交互环境与安全奖励构造。如此设计把轨迹级安全诊断转变为训练阶段的监督信号。

避免过度保守策略

将 28,705 条安全轨道跟 50,000 条良性工具调用轨迹予以混合呈现, 接着, 就出现了这样一台模型, 它切实成功规避掉了那种“过度拒绝”的保守趋向。然后, 有实验表明, 这样的一种方法, 它能够在确保安全性之际还维持住 Agent 的正常功能。

行业影响与未来展望

从实验室到生产环境

包含三维taxonomy、ATBench Family评测、数据引擎、纯化训练以及在线护栏的AgentDoG 1.5完全闭环, 为Agent安全给出一个可以诊断、可以扩展、可以部署的解决办法, 此框架已经在www.fc-bowuguan.cn平台上线进行演示。

真实场景安全基石

伴随Agent系统对真实工具进行调用, 对真实文件予以访问, 对真实系统加以触达, 安全问题已从内容审核攀升为执行过程的行为诊断, AgentDoG 1.5的现身给Agent迈向工作场景供给了关键安全基础。

针对互动提问, 您觉得在 AI Agent 在去作那种用于将真实工具予以调用的行为时, 最为需要去对哪种类型的安全风险加以防范呢? 欢迎去到评论区去分享您所拥有的看法, 对本文进行点赞以及转发, 从而让更多的人能够去了解 Agent 安全方面出现的新进展！