WildGuard

WildGuard 是一个开源、轻量级的大型语言模型安全监控工具，旨在实现三个目标：

识别用户提示中的恶意意图
检测模型回复的安全风险
判断模型拒绝响应的比例

综上，WildGuard 满足日益增长的自动化安全监控与评估需求，提供一站式解决方案，在13类风险中具备更高的准确率和更广的覆盖范围。尽管现有开源监控工具（如 Llama-Guard2）在分类简单模型交互方面表现尚可，但在识别对抗性越狱攻击及评估模型拒绝行为方面仍远落后于提示后的 GPT-4，而后者是衡量模型安全响应行为的关键指标。

为应对这些挑战，我们构建了 WildGuardMix——一个大规模且精心平衡的多任务安全监控数据集，包含9.2万条标注样本，涵盖常规（直接）提示与对抗性越狱提示，并配以多种拒绝与合规响应。WildGuardMix 由 WildGuardTrain（WildGuard 的训练数据）和 WildGuardTest（5000条高质量人工标注的测试集）组成，覆盖广泛的风险场景。通过在 WildGuardTest 及十个公开基准上的大量评估，我们证明，相较于十种现有的强大开源监控模型，WildGuard 在三项任务上均达到当前开源领域的最先进水平（例如，拒绝检测性能提升高达26.4%）。尤为重要的是，WildGuard 的表现可媲美甚至超越 GPT-4（例如，提示有害性识别性能提升达3.9%）。作为大型语言模型接口中的高效安全监控器，WildGuard 将越狱攻击的成功率从79.8%降至2.4%。

雷思软件

WildGuard

软件描述

官方网站

什么是 WildGuard?

主要功能

支持平台

标签

下载与相关链接