Question

У меня есть RDD выход (22 столбца, 10000 строк) разъема искрового Hbase, и я должен преобразовать его в DataFrame.

Вот мой метод:

val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
... 
.withColumnRenamed("_i", "name example i")
.sort("Time")

Работает хорошо, проблема в производительности, есть ли способ ее оптимизировать?

Заранее спасибо

Spark Scala Преобразование большого RDD в Dataframe проблема производительности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark Scala Преобразование большого RDD в Dataframe проблема производительности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы