Question

У меня есть такой столбец SparseVectors:

+--------------------+
|      features_array|
+--------------------+
|(11,[1,2,3],[1.0,...|
|(11,[1,2],[1.0,1.0])|
|(11,[1,2],[1.0,1.0])|
|(11,[1,4],[1.0,1.0])|
|(11,[1,3,4],[1.0,...|
+--------------------+

И я просто хочу суммировать все строки без предварительного преобразования в СДР. Я должен в конечном итоге только один разреженный вектор. Я пробовал кучу вещей, но продолжаю получать кучу ошибок несоответствия схемы.

Если бы у меня были плотные векторы, вход и выход были бы такими:

Ввод:

feature_array
[1,2]
[3,5]

Вывод:

feature_array
[4,7]

Суммировать столбец SparseVectors в PySpark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Суммировать столбец SparseVectors в PySpark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы