Tarsier

Tarsier

Tarsier

软件

软件描述

如果你曾尝试使用大语言模型来自动化网页操作,很可能遇到过如下问题:

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Tarsier?

如果你曾尝试使用大语言模型(LLM)自动化网页操作,可能遇到过以下问题:

如何向LLM输入网页内容?(例如HTML、可访问性树、截图) 如何将LLM的响应映射回网页元素? 如何让仅支持文本的LLM理解页面的视觉结构?

在Reworkd,我们通过数以万计的真实网页任务反复迭代解决了这些问题,构建出一个强大的网页智能感知系统——Tarsier!在下方视频中,我们使用Tarsier为一个极简版GPT-4 LangChain网页代理提供网页感知能力。

它是如何工作的? Tarsier通过方括号加ID的方式在页面上对可交互元素进行视觉标注,例如[23]。这样就为LLM提供了元素与ID之间的映射关系,使其能够执行相应操作(如CLICK [23])。我们定义的可交互元素包括可见的按钮、链接和输入框;若设置tag_text_elements=True,Tarsier还可标注所有文本元素。

此外,我们开发了一种OCR算法,可将页面截图转换为带有空格结构的字符串(类似ASCII艺术),使即使没有视觉能力的LLM也能理解。由于当前视觉语言模型仍缺乏网页交互任务所需的细粒度表示,这一技术至关重要。在我们的内部基准测试中,单模态GPT-4 + Tarsier-Text的表现比GPT-4V + Tarsier-Screenshot高出10%-20%!

支持平台

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。