官方网站链接:https://tez.apache.org/
简介
Tez是从MapReduce计算框架演化而来的通用DAG(有向无环图)计算框架,可作为MapReduceR、Pig、Hive等系统的底层数据处理引擎。它把MapReduce过程拆分成若干个子过程,同时可以把多个MapReduce任务组合成一个较大的DAG任务,减少了MapReduce之间的文件存储。同时合理组合其子过程,也可以减少任务的运行时间。
应用场景
Tez支持DAG作业的分布式执行框架。为了更高效地运行存在依赖关系的作业(比如Pig和Hive产生的MapReduce作业),减少磁盘和网络IO,Tez提供统一的底层数据处理引擎,能够在运行时根据与数据和资源相关的实时信息完成动态性能优化。
功能特性
1. 简化部署
充分利用了YARN框架,Tez本身仅是一个客户端编程库,无需事先部署相关服务。
2. 具有表现力的数据流API
Tez实现了一个结构化类型的API,你可以在其中添加所有的处理器(Processor)和边(Edge),并可视化实际构建的图形(DAG)。
3. 灵活的输入—处理器—输出运行时模型
可以通过连接不同的输入(Input)、处理器(Processor)和输出(Output)动态地构建运行时执行器。
4. 扩展性
Tez为开发人员提供了丰富的扩展性以便于让他们能够应对复杂的处理逻辑。