LlamaGym

软件描述

“智能体”起源于强化学习,其通过与环境交互并接收奖励信号来学习。然而,当前基于大语言模型的智能体并非通过强化学习实现在线(即实时持续)学习。

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS
立即访问

什么是 LlamaGym?

“智能体”起源于强化学习,它们通过与环境交互并接收奖励信号来学习。然而,当前基于大语言模型(LLM)的智能体并不通过强化学习实现在线(即实时连续)学习。
OpenAI 创建了 Gym,以标准化和简化强化学习环境。但如果你尝试将基于 LLM 的智能体投入 Gym 环境进行训练,会发现仍需编写大量代码来处理 LLM 对话上下文、回合批处理、奖励分配、PPO 设置等问题。
LlamaGym 旨在简化基于 RL 的 LLM 智能体微调。目前,它是一个单一的 Agent 抽象类,可自动处理上述所有问题,使你能够快速在任意 Gym 环境中迭代和实验智能体提示词与超参数。

支持平台

标签

下载与相关链接

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。

GitHub