Каков наилучший способ сохранить и прочитать массив NumPy в PySpark? - PullRequest
0 голосов
/ 26 апреля 2019

Допустим, у меня есть RDD, где каждый элемент представляет собой массив numpy:

rdd = sc.parallelize([np.asarray(1), np.asarray(2)])

Каков рекомендуемый способ сохранить этот RDD в HDFS, а затем прочитать его обратно? Я знаю о методе saveAsTextFile, однако это не текстовый файл, верно? Другие методы, такие как saveAsHadoopFile, saveAsNewAPIHadoopFile и т. Д., Кажется более подходящими для СДР пар ключ-значение, что здесь не так.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...