Разреженная матрица - это представление данных, которое позволяет вам использовать меньше места в оперативной памяти во время вычислений.
Если вы хотите сохранить данные, вам необходимо учесть:
sequenceFile
формат, в котором вы задаете координаты в качестве ключа и ненулевое значение в качестве значения.
parquet
формат, в котором вы сохраняете плотную матрицу, тем не менее паркет оптимизирует повторяющиеся значения в столбцах, поэтому он может приятно сжимать нули по матрице.Вы также можете извлечь представление типа (row, column, value)
в столбцах и поместить туда все ненулевые значения, а затем сохранить в формате партера.