Tesseract

Tesseract
软件描述
Tesseract.js 是一个 JavaScript 库,可从图像中提取几乎任何语言的文本。
官方网站
访问软件的官方网站了解更多信息
github.com
什么是 Tesseract?
Tesseract.js 是一个 JavaScript 库,可以从图像中提取几乎任何语言的文本。Tesseract OCR 引擎在 1995 年 UNLV 准确性测试中位列前三。1995 年至 2006 年间其开发进展缓慢,但至今仍是可用的最准确的开源 OCR 引擎之一。该源代码可读取二值、灰度或彩色图像并输出文本。内置 TIFF 读取器可处理未压缩的 TIFF 图像,也可添加 libtiff 以读取压缩图像。它支持多种语言的语言文件,甚至包括使用弗拉克图尔体和黑体字形的文字。
主要功能
🔄 替代方案
22 个选择ClarifyDocuments
ClarifyDocuments 是一款免费的 AI 工具,可将 PDF、图片和幻灯片转换为干净、可编辑的文本。它能自动清理、整理并处理任何语言的内容,帮助学生和教育工作者专注于学习。

CuneiForm
CuneiForm(OpenOCR)是一款用于印刷模板的文字识别软件。该程序无法识别手稿或PDF文件,但可以识别表格结构。其语言模型适用于20种语言,识别结果可保存为HTML、RTF或ASCII文本格式,或……

OCRify
OCRify可将图像和PDF转换为可编辑的数字文本。上传文件后,文本会快速被识别,您即可复制、编辑或保存。

MinerU
免费的一体化文档解析工具。 精准解析,高效提取,带来更流畅、更准确的解析体验。

OCRopus
OCRopus(tm) 是一种先进的文档分析与光学字符识别系统,具备可插拔的版面分析、可插拔的字符识别、统计自然语言建模以及多语言功能。

Parser
一种智能数据提取服务,可自动处理信息。它利用先进的人工智能技术,精确解析非结构化文档,并将其转换为干净的结构化JSON数据。

Project Naptha
Project Naptha 会自动在您浏览网页时对每个图像应用最先进的计算机视觉算法。结果是,您能够轻松高亮、复制粘贴,甚至编辑和翻译原本无法处理的文本……

GOCR
GOCR 是一个在 GNU 通用公共许可证下开发的光学字符识别(OCR)程序,可将文本扫描图像转换回文本文件。该程序由 Joerg Schulenburg 创建,如今他领导着一支开发团队。

