软件
一个面向大型语言模型评估的公共平台,支持匿名的两两比较、众包投票、实时模型身份披露以及针对社区提交的提示词,对开源和专有大型语言模型的总体性能进行跟踪。
访问软件的官方网站了解更多信息
lmarena.ai
LMArena 是一个公开的、基于网页的平台,通过匿名的众包式两两对比来评估大型语言模型。用户为两个匿名模型输入提示,然后投票选择哪个模型的回复更佳,同时揭示这两个模型的身份。