Tarsier

Tarsier
软件
软件描述
如果你曾尝试使用大语言模型来自动化网页操作,很可能遇到过如下问题:
官方网站
访问软件的官方网站了解更多信息
github.com
安全链接HTTPS
什么是 Tarsier?
如果你曾尝试使用大语言模型(LLM)自动化网页操作,可能遇到过以下问题:
如何向LLM输入网页内容?(例如HTML、可访问性树、截图) 如何将LLM的响应映射回网页元素? 如何让仅支持文本的LLM理解页面的视觉结构?
在Reworkd,我们通过数以万计的真实网页任务反复迭代解决了这些问题,构建出一个强大的网页智能感知系统——Tarsier!在下方视频中,我们使用Tarsier为一个极简版GPT-4 LangChain网页代理提供网页感知能力。
它是如何工作的? Tarsier通过方括号加ID的方式在页面上对可交互元素进行视觉标注,例如[23]。这样就为LLM提供了元素与ID之间的映射关系,使其能够执行相应操作(如CLICK [23])。我们定义的可交互元素包括可见的按钮、链接和输入框;若设置tag_text_elements=True,Tarsier还可标注所有文本元素。
此外,我们开发了一种OCR算法,可将页面截图转换为带有空格结构的字符串(类似ASCII艺术),使即使没有视觉能力的LLM也能理解。由于当前视觉语言模型仍缺乏网页交互任务所需的细粒度表示,这一技术至关重要。在我们的内部基准测试中,单模态GPT-4 + Tarsier-Text的表现比GPT-4V + Tarsier-Screenshot高出10%-20%!
