sqoop
发布人:张子卓  发布时间:2019-12-12   浏览次数:631

官方网站链接:http://sqoop.apache.org/
简介

 Sqoop用来在Hadoop和关系数据库之间传输数据。通过Sqoop,用户可以方便的将数据从关系数据库(如MySQLOraclePostgres等)导入到HDFS,或者将数据从HDFS导出到关系数据库。

应用场景

通过Sqoop用户可以从关系数据库导入数据到HDFS。导入的数据可以是数据库中的一个表,Sqoop会一行行的将表的数据读入到HDFSSqoop可以控制导入的特定行范围或列范围,也可以指定使用的文件格式、分隔符或转移字符。导入过程可以并行执行。

功能特性
  1. 支持关系数据库与大数据平台之间数据的导入导出

支持数据在关系型数据库和HDFSHiveHBase之间的导入导出,并支持数据导入到Kafka中。

  1. 大对象支持

很多数据库都支持CLOBBLOB这类的大对象,Sqoop将导入的大对象数据存储在LobFile格式的单独文件中,LobFile格式能够存储非常大的单条记录。LobFile文件中的每条记录保存一个大对象。在导入一条记录时,所有的“正常”字段会在一个文本文件中一起物化,同时还生成一个指向保存CLOBBLOB列的LobFile文件的引用。

  1. 导出与事务

进程的并行特性,导致导出操作往往不是原子操作。Sqoop会采用多个并行的任务导出,并且数据库系统使用固定大小的缓冲区来存储事务数据,这时一个任务中的所有操作不可能在一个事务中完成。因此,在导出操作进行过程中,提交过的中间结果都是可见的。在导出过程完成前,不要启动那些使用导出结果的应用程序,否则这些应用会看到不完整的导出结果。



 
copyright@2022长安大学 | 高性能计算平台