У меня есть RDD
выход (22 столбца, 10000 строк) разъема искрового Hbase, и я должен преобразовать его в DataFrame
.
Вот мой метод:
val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
...
.withColumnRenamed("_i", "name example i")
.sort("Time")
Работает хорошо, проблема в производительности, есть ли способ ее оптимизировать?
Заранее спасибо