Tarsier

软件描述

如果你曾尝试使用大语言模型来自动化网页操作，很可能遇到过如下问题：

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Tarsier?

如果你曾尝试使用大语言模型（LLM）自动化网页操作，可能遇到过以下问题：

如何向LLM输入网页内容？（例如HTML、可访问性树、截图）如何将LLM的响应映射回网页元素？如何让仅支持文本的LLM理解页面的视觉结构？

在Reworkd，我们通过数以万计的真实网页任务反复迭代解决了这些问题，构建出一个强大的网页智能感知系统——Tarsier！在下方视频中，我们使用Tarsier为一个极简版GPT-4 LangChain网页代理提供网页感知能力。

它是如何工作的？ Tarsier通过方括号加ID的方式在页面上对可交互元素进行视觉标注，例如[23]。这样就为LLM提供了元素与ID之间的映射关系，使其能够执行相应操作（如CLICK [23]）。我们定义的可交互元素包括可见的按钮、链接和输入框；若设置tag_text_elements=True，Tarsier还可标注所有文本元素。

此外，我们开发了一种OCR算法，可将页面截图转换为带有空格结构的字符串（类似ASCII艺术），使即使没有视觉能力的LLM也能理解。由于当前视觉语言模型仍缺乏网页交互任务所需的细粒度表示，这一技术至关重要。在我们的内部基准测试中，单模态GPT-4 + Tarsier-Text的表现比GPT-4V + Tarsier-Screenshot高出10%-20%！

主要功能

✓无广告 ✓OCR ✓基于Python的 ✓人工智能驱动

雷思软件

Tarsier

软件描述

官方网站

什么是 Tarsier?

主要功能

支持平台

标签

下载与相关链接