Lemur Project

Lemur Project
软件描述
莱穆尔项目开发了搜索引擎、浏览器工具栏、文本分析工具和数据资源,以支持信息检索和文本挖掘软件的研究与开发。该项目最著名的是其Indri搜索引擎。
官方网站
访问软件的官方网站了解更多信息
www.lemurproject.org
什么是 Lemur Project?
勒穆尔项目开发了搜索引擎、浏览器工具栏、文本分析工具和数据资源,以支持信息检索和文本挖掘软件的研究与开发。该项目最著名的产品包括Indri搜索引擎、Lemur工具栏和ClueWeb09数据集。我们的软件和数据集被广泛应用于科学和研究领域,同时也被一些商业应用所采用。
Indri是一款搜索引擎,提供先进的文本搜索功能以及针对最多5000万文档(单机)或50亿文档(分布式搜索)的文本集合的丰富结构化查询语言。支持Linux、Solaris、Windows和Mac OS X系统。
功能特点
强大的查询接口
支持INQUERY中的主流结构化查询操作符
基于词缀的通配符术语匹配
字段级检索
段落级检索
灵活的索引与文档支持
支持UTF-8编码文本
对UTF-8编码文档进行语言无关的分词
可解析PDF、HTML、XML和TREC文档
支持Word和PowerPoint文档解析(仅限Windows)
文本注释
文档元数据
包的多功能性
开源软件,采用灵活的BSD风格许可协议
包含命令行工具和Java用户界面
API支持Java、PHP和C++语言调用
可在Windows、Linux、Solaris和Mac OS X上运行
可扩展性与高效性
在即席检索性能方面处于行业领先水平
可部署在多台机器集群上,实现更快的索引与检索
可扩展至TB级文档集合
下载
Indri可从SourceForge勒穆尔项目页面获取。
版本历史
Indri的首个版本(1.0)于2002年1月发布。此后,每年发布2到3次更新。当前版本的发布说明可在SourceForge上找到。