LlamaGym

什么是 LlamaGym?

“智能体”起源于强化学习，它们通过与环境交互并接收奖励信号来学习。然而，当前基于大语言模型（LLM）的智能体并不通过强化学习实现在线（即实时连续）学习。
OpenAI 创建了 Gym，以标准化和简化强化学习环境。但如果你尝试将基于 LLM 的智能体投入 Gym 环境进行训练，会发现仍需编写大量代码来处理 LLM 对话上下文、回合批处理、奖励分配、PPO 设置等问题。
LlamaGym 旨在简化基于 RL 的 LLM 智能体微调。目前，它是一个单一的 Agent 抽象类，可自动处理上述所有问题，使你能够快速在任意 Gym 环境中迭代和实验智能体提示词与超参数。