Суммировать столбец SparseVectors в PySpark? - PullRequest
0 голосов
/ 26 февраля 2020

У меня есть такой столбец SparseVectors:

+--------------------+
|      features_array|
+--------------------+
|(11,[1,2,3],[1.0,...|
|(11,[1,2],[1.0,1.0])|
|(11,[1,2],[1.0,1.0])|
|(11,[1,4],[1.0,1.0])|
|(11,[1,3,4],[1.0,...|
+--------------------+

И я просто хочу суммировать все строки без предварительного преобразования в СДР. Я должен в конечном итоге только один разреженный вектор. Я пробовал кучу вещей, но продолжаю получать кучу ошибок несоответствия схемы.

Если бы у меня были плотные векторы, вход и выход были бы такими:

Ввод:

feature_array
[1,2]
[3,5] 

Вывод:

feature_array
[4,7]
...