Question

Допустим, у меня есть RDD, где каждый элемент представляет собой массив numpy:

rdd = sc.parallelize([np.asarray(1), np.asarray(2)])

Каков рекомендуемый способ сохранить этот RDD в HDFS, а затем прочитать его обратно? Я знаю о методе saveAsTextFile, однако это не текстовый файл, верно? Другие методы, такие как saveAsHadoopFile, saveAsNewAPIHadoopFile и т. Д., Кажется более подходящими для СДР пар ключ-значение, что здесь не так.

Каков наилучший способ сохранить и прочитать массив NumPy в PySpark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Каков наилучший способ сохранить и прочитать массив NumPy в PySpark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов