Huge insert to HBase
尝试将数据插入HBase时出现问题。
我有1200万行的Spark DataFrame,其中包含2个字段:
1 2 | * KEY, a md5 hash * MATCH, a boolean ("1" or"0") |
我需要将其存储在HBase表中,KEY是行键,MATCH是列。
我创建了一个带有行键拆分表的表:
1 2 3 4 5 6 7 8 | create 'GTH_TEST', 'GTH_TEST', {SPLITS=> ['10000000000000000000000000000000', '20000000000000000000000000000000','30000000000000000000000000000000', '40000000000000000000000000000000','50000000000000000000000000000000', '60000000000000000000000000000000','70000000000000000000000000000000', '80000000000000000000000000000000','90000000000000000000000000000000', 'a0000000000000000000000000000000','b0000000000000000000000000000000', 'c0000000000000000000000000000000','d0000000000000000000000000000000', 'e0000000000000000000000000000000','f0000000000000000000000000000000']} |
我使用Hortonworks的HBase shc连接器,如下所示:
1 2 3 4 | df.write .options(Map(HBaseTableCatalog.tableCatalog -> cat_matrice)) .format("org.apache.spark.sql.execution.datasources.hbase") .save() |
此代码永无止境。它开始将数据插入HBase并永久运行(至少在我杀死它之前35小时)。它执行11984/16000个任务,任务数量始终相同。
我做了一个更改:
1 2 3 4 5 | df.limit(Int.MaxValue) .write .options(Map(HBaseTableCatalog.tableCatalog -> cat_matrice)) .format("org.apache.spark.sql.execution.datasources.hbase") .save() |
如果有限制(Int.MaxValue),则需要4/5分钟才能插入1200万行。
有人可以解释这种行为吗? HBase端是否有max_connexions?
是否需要在HBase或Spark方面进行一些调整?
谢谢!
杰弗里
我们终于更改了HBase连接器。
通过it.nerdammer.spark.hbase(通过RDD),它可以完美运行。
1 2 3 4 5 | import it.nerdammer.spark.hbase._ rdd.toHBaseTable(tableName) .toColumns("MATCHED") .inColumnFamily(cfName) .save() |