Pig

发布人：张子卓发布时间：2019-12-12 浏览次数:579

官方网站链接：https://redis.io/

简介

Pig是用来处理大规模数据的高级查询语言，属于Hadoop的上层衍生架构，它通过一种类似于SQL的面向数据流的脚本语言，将MapReduce进行封装，对HDFS中的数据进行处理。Pig为大数据集的处理提供了更高层次的抽象，简化了MapReduce算法实现，方便用户使用。同时它也支持由用户自定义一些函数对数据集进行操作，也就是UDF（用户自定义函数）。

应用场景

Pig并不适合所有的数据处理任务，和MapReduce一样，它是为数据批处理而设计的。通过Pig提供的数据处理脚本，可以对加载出来的数据进行排序、过滤、求和、分组、关联。

功能特性

1. 编码简单

Pig只要几行Pig Latin代码就能处理TB级别的数据。Pig支持在输入数据中有代表性的一个小的数据集上试运行，用户在处理大的数据集前可以用一个小的数据集验证程序是不是有错误。

2. 可扩展性

通过UDF（用户自定义函数），可以自定义数据处理方法，扩展Pig功能。Pig并不被限定运行在Hadoop框架上，例如Pig on Tez。