Суммирование столбца данных плотного вектора - PullRequest
0 голосов
/ 22 апреля 2019

Я хочу суммировать столбец данных, где каждая строка имеет плотный вектор того же измерения.Вывод, который я хотел бы получить, это пустой массив этого измерения.

Используя ml.feature.VectorAssembler, я обнаружил, что мои задачи убиты во время вызова:

>>> dataframe.select('feature_vector').rdd.reduce(sum)

где столбец feature_vector было выведено из VectorAssembler.Но когда я использую такие вещи, как ml.linalg.VectorUDT, для масштабирования вектора объектов и затем суммирования:

>>> dataframe.select('scaled_feature_vector').rdd.reduce(sum)

что мои задачи не убиваются, а выполнение занимает много времени.Как мне обрабатывать векторы в pySpark, чтобы я мог эффективно выполнять сокращения такого типа?

...