Spark Scala Преобразование большого RDD в Dataframe проблема производительности - PullRequest
0 голосов
/ 28 ноября 2018

У меня есть RDD выход (22 столбца, 10000 строк) разъема искрового Hbase, и я должен преобразовать его в DataFrame.

Вот мой метод:

val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
... 
.withColumnRenamed("_i", "name example i")
.sort("Time")

Работает хорошо, проблема в производительности, есть ли способ ее оптимизировать?

Заранее спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...