Petri

Petri
软件
软件描述
Petri 是一个用于快速、真实假设测试的对齐审计代理。它能自主构建环境,使用类人消息和模拟工具对目标模型进行多轮审计,并对对话记录进行评分,以发现潜在问题行为。
官方网站
访问软件的官方网站了解更多信息
官方认证
safety-research.github.io
安全链接HTTPS
什么是 Petri?
Petri 是一个用于快速、真实假设测试的对齐审计代理。它能自主构建环境,使用类人类消息和模拟工具对目标模型进行多轮审计,并对对话记录进行评分以发现潜在问题行为。研究人员无需花费数周时间构建定制评估,可在几分钟内验证新假设。
Petri 是一个开源框架,可自动在多个模型和场景下执行人工智能安全评估。它通过审计员、目标模型和评判者三种角色模拟动态对话,评估欺骗、奖励滥用及对有害请求的合规等安全相关行为。每段对话记录均通过评判模型依据统一标准自动评分,帮助研究人员优先关注最关键的输出。
Petri 采用 Python 编写,遵循 MIT 许可证,与 Inspect CLI 集成,支持快速部署和灵活更换模型。它兼容主流模型 API,提供常见审计类型的种子指令,并内置简易本地查看器用于浏览对话记录。配置只需从 GitHub 安装,添加服务商 API 密钥,运行评估命令即可生成带评分结果。
主要功能
• 支持分支路径与回滚能力的自动化多轮审计
• 基于大语言模型的评分与排序,加速关键对话审查
• 集成 Inspect CLI,便于并行运行审计或轻松切换模型
• 提供开箱即用的示例、文档及本地对话记录查看器
典型应用场景
• 在大型模型族中测试对齐与安全假设
• 生成可复现的审计结果,用于比较不同大语言模型的行为差异
• 支持 AI 实验室中的安全研究与合规性评估

