官方网站:https://www.hpp.com/en/
简介
HPP是Hadoop的原生SQL查询引擎,在HDFS基础上提供了大规模并行处理能力,数据加载、数据查询效率高,完全兼容标准SQL。包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能。
应用场景
HPP针对的是分析性应用,支持TB/PB级大数据量的OLAP应用,专为BI及数据分析优化,是传统关系型数据库、数据仓库的替代产品。HPP的SQL兼容性、性能等远高于其他类SQL工具。
功能特性
1. 完全兼容的SQL标准,兼容SQL-92,-99,-2003,OLAP扩展。
2. 具有非常成熟的并行优化器,查询性能优化,比其他Hadoop SQL引擎快近10倍。
3. 异构数据源的关联查询分析,对接多种数据源包括关系数据库、HDFS、 HBase、 Hive等
4. 支持In-Database Analytics,提供基于库内类SQL方式的数据分析挖掘。
5. 全面的事务能力和事务一致性保证,支持ACID事务特性。
6. 基于按需分配的虚拟Segment管理机制和支持数据本地化的弹性执行引擎。
7. 支持列表分区、范围分区表,并支持多级分区。
8. 支持多种压缩算法:Snappy、Gzip、Quicklz、RLE。
9. 支持多种语言的用户自定义函数:Python、Perl、Java、C/C++、R。
10. 提供基于MADLib的高级机器学习和数据挖掘功能。