Допустим, у меня есть RDD, где каждый элемент представляет собой массив numpy:
rdd = sc.parallelize([np.asarray(1), np.asarray(2)])
Каков рекомендуемый способ сохранить этот RDD в HDFS, а затем прочитать его обратно? Я знаю о методе saveAsTextFile
, однако это не текстовый файл, верно? Другие методы, такие как saveAsHadoopFile
, saveAsNewAPIHadoopFile
и т. Д., Кажется более подходящими для СДР пар ключ-значение, что здесь не так.