Я хочу суммировать столбец данных, где каждая строка имеет плотный вектор того же измерения.Вывод, который я хотел бы получить, это пустой массив этого измерения.
Используя ml.feature.VectorAssembler
, я обнаружил, что мои задачи убиты во время вызова:
>>> dataframe.select('feature_vector').rdd.reduce(sum)
где столбец feature_vector
было выведено из VectorAssembler
.Но когда я использую такие вещи, как ml.linalg.VectorUDT
, для масштабирования вектора объектов и затем суммирования:
>>> dataframe.select('scaled_feature_vector').rdd.reduce(sum)
что мои задачи не убиваются, а выполнение занимает много времени.Как мне обрабатывать векторы в pySpark, чтобы я мог эффективно выполнять сокращения такого типа?