Luigi

Luigi

Luigi

软件

软件描述

Luigi 是一个 Python 模块,用于帮助您构建复杂的批处理作业流水线。它可处理依赖关系解析、工作流管理、可视化等功能,并内置了对 Hadoop 的支持。

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Luigi?

Luigi 的目标是解决长时间运行的批处理流程中通常涉及的所有“管道”问题。你希望将多个任务串联起来,实现自动化,并且故障不可避免。这些任务可以是任何类型,但通常是耗时较长的操作,例如 Hadoop 作业、数据库的数据导入导出、机器学习算法运行等。

虽然已有其他软件专注于数据处理的底层方面,如 Hive、Pig 或 Cascading,但 Luigi 并非用于替代这些工具。相反,它帮助你将多个任务组合在一起,每个任务可以是一个 Hive 查询、一个 Java 编写的 Hadoop 作业、一个 Scala 或 Python 编写的 Spark 作业、一段 Python 脚本、从数据库导出一张表,或其他任何操作。你可以轻松构建包含数千个任务、持续数天甚至数周的长时间运行流水线。Luigi 负责处理大量工作流管理事务,使你能够专注于任务本身及其依赖关系。

你可以构建几乎任意类型的任务,同时 Luigi 还提供了一系列常用任务模板工具箱供你使用。它支持在 Hadoop 中运行 Python MapReduce 作业,以及 Hive 和 Pig 作业。此外,它还提供了对 HDFS 和本地文件系统的抽象,确保所有文件系统操作都是原子性的。这一点非常重要,因为它意味着你的数据流水线不会因部分数据而处于崩溃状态。

支持平台

标签