Lemur Project

Lemur Project
软件描述
莱穆尔项目开发了搜索引擎、浏览器工具栏、文本分析工具以及数据资源,以支持信息检索和文本挖掘软件的研发。该项目最著名的产品是Indri搜索引擎。
官方网站
访问软件的官方网站了解更多信息
www.lemurproject.org
什么是 Lemur Project?
Lemur项目开发了搜索引擎、浏览器工具栏、文本分析工具以及数据资源,以支持信息检索和文本挖掘软件的研发。该项目最著名的产品包括Indri搜索引擎、Lemur工具栏和ClueWeb09数据集。我们的软件与数据集广泛应用于科研及部分商业领域。
Indri是一款提供业界领先文本搜索能力的搜索引擎,支持高达5000万文档(单机)或5亿文档(分布式搜索)的文本集合,并配备功能丰富的结构化查询语言。支持Linux、Solaris、Windows和Mac OS X系统。
特性
强大的查询接口
支持INQUERY中的常见结构化查询操作符
基于后缀的通配符词项匹配
字段检索
段落检索
灵活的索引与文档支持
支持UTF-8编码文本
对UTF-8编码文档进行语言无关的分词处理
可解析PDF、HTML、XML和TREC格式文档
支持Word和PowerPoint解析(仅限Windows)
文本标注
文档元数据
包件通用性
开源,采用灵活的类BSD许可协议
包含命令行工具和Java用户界面
可通过Java、PHP或C++调用API
兼容Windows、Linux、Solaris和Mac OS X系统
可扩展性与高效性
具备业界领先的即兴检索性能
可在多台机器组成的集群上使用,实现更快的索引与检索
可扩展至TB级数据集合
下载
Indri可从SourceForge上的Lemur项目页面获取。
发布历史
Indri首个版本(1.0)于2002年1月发布。此后每年发布2-3次更新。当前版本的发布说明可在SourceForge上查阅。


