Как читать и записывать координатную матрицу в файл в pyspark - PullRequest
0 голосов
/ 17 мая 2018

У меня был очень разреженный фрейм данных в pyspark, я конвертировал этот фрейм данных в CoordinatedMatrix.Теперь я хочу сохранить эту матрицу в формате hdf, чтобы позже использовать ее для обучения моей модели.К сожалению, я не нашел никакого решения для этого.Любой совет?

пример:

>> mat.entries.collect()
[MatrixEntry(1, 0, 1.0), MatrixEntry(1, 1, 1.0), MatrixEntry(1, 2, 2.0),MatrixEntry(1, 3, 1.0), MatrixEntry(2, 0, 2.0), MatrixEntry(2, 1, 1.0), MatrixEntry(2, 2, 3.0), MatrixEntry(2, 3, 5.0)]

1 Ответ

0 голосов
/ 17 мая 2018

Здесь нет рекомендуемого формата, и CoordinateMatrix имеет очень простую структуру, так что вы можете выбрать практически все, например, Паркет:

mat.entries.toDF().write.parquet(path) 

и позже читать:

CoordinateMatrix(spark.read.parquet(path).rdd.map(lambda row: MatrixEntry(*row)))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...