Petri

Petri 是一个用于快速、真实假设测试的对齐审计代理。它能自主构建环境，使用类人类消息和模拟工具对目标模型进行多轮审计，并对对话记录进行评分以发现潜在问题行为。研究人员无需花费数周时间构建定制评估，可在几分钟内验证新假设。

Petri 是一个开源框架，可自动在多个模型和场景下执行人工智能安全评估。它通过审计员、目标模型和评判者三种角色模拟动态对话，评估欺骗、奖励滥用及对有害请求的合规等安全相关行为。每段对话记录均通过评判模型依据统一标准自动评分，帮助研究人员优先关注最关键的输出。

Petri 采用 Python 编写，遵循 MIT 许可证，与 Inspect CLI 集成，支持快速部署和灵活更换模型。它兼容主流模型 API，提供常见审计类型的种子指令，并内置简易本地查看器用于浏览对话记录。配置只需从 GitHub 安装，添加服务商 API 密钥，运行评估命令即可生成带评分结果。

主要功能
• 支持分支路径与回滚能力的自动化多轮审计
• 基于大语言模型的评分与排序，加速关键对话审查
• 集成 Inspect CLI，便于并行运行审计或轻松切换模型
• 提供开箱即用的示例、文档及本地对话记录查看器

典型应用场景
• 在大型模型族中测试对齐与安全假设
• 生成可复现的审计结果，用于比较不同大语言模型的行为差异
• 支持 AI 实验室中的安全研究与合规性评估

雷思软件

Petri

软件描述

官方网站

什么是 Petri?

主要功能

支持平台

标签

下载与相关链接